arXiv ID:
2606.05922
回溯性工具链优化:通过轨迹回滚的自我偏好提升智能体性能 / Retrospective Harness Optimization: Improving LLM Agents via Self-Preference over Trajectory Rollouts
1️⃣ 一句话总结
本文提出一种名为RHO的自我监督方法,让AI智能体从自己过去的任务轨迹中自动选择困难案例并重新尝试,通过自我验证和偏好比较来优化其技能与工具组合,无需人工标注数据,在软件工程等任务中可将成功率从59%提升至78%。