arXiv ID:
2601.06021
链接证据:基于引文感知评分奖励的深度搜索智能体鲁棒强化学习 / Chaining the Evidence: Robust Reinforcement Learning for Deep Search Agents with Citation-Aware Rubric Rewards
1️⃣ 一句话总结
这篇论文提出了一种名为CaRR的精细奖励框架和配套的C-GRPO训练方法,通过要求AI在回答复杂问题时分解问题、提供准确引用并构建完整的证据链,有效提升了深度搜索智能体推理的全面性、事实依据和鲁棒性,减少了走捷径和捏造信息的问题。