arXiv ID:
2601.06794
告别过时反馈:面向开放世界智能体学习的协同进化评价器 / No More Stale Feedback: Co-Evolving Critics for Open-World Agent Learning
1️⃣ 一句话总结
这篇论文提出了一个名为ECHO的新框架,通过让评价模型与智能体策略同步协同进化,解决了传统强化学习中反馈信息容易过时失效的问题,从而在开放世界的复杂任务中实现了更稳定、更高效的训练效果。