arXiv ID:
2602.03619
从人类偏好中学习特定查询的评分标准以用于深度研究报告生成 / Learning Query-Specific Rubrics from Human Preferences for DeepResearch Report Generation
1️⃣ 一句话总结
这篇论文提出了一种新方法,通过结合人类偏好和强化学习,自动生成针对具体查询的精细评分标准,从而更有效地训练和评估AI生成的深度研究报告,使其性能接近顶尖的闭源模型。