arXiv ID:
2604.08178
arXiv 提交日期: 2026-04-09
通过规划对齐智能体:一个用于轨迹级奖励建模的基准 / Aligning Agents via Planning: A Benchmark for Trajectory-Level Reward Modeling
1️⃣ 一句话总结
这篇论文提出了一个名为Plan-RewardBench的新基准测试,专门用于评估和改进智能体在复杂任务中(如使用工具和规划)的奖励模型,发现现有模型在长序列任务上表现不佳,强调了开发专门训练方法的必要性。