arXiv ID:
2512.23707
arXiv 提交日期: 2025-12-29
使用评分标准奖励训练AI科研助手 / Training AI Co-Scientists Using Rubric Rewards
1️⃣ 一句话总结
这篇论文提出了一种利用现有论文自动提取研究目标和评分标准,然后通过强化学习自我评分来训练AI模型,使其能生成更符合要求的研究计划,从而提升AI科研助手的实用性。