arXiv ID:
2606.25852
arXiv 提交日期: 2026-06-24
面向大语言模型智能体的语义一致性策略优化强化学习方法 / Semantic Consistency Policy Optimization for Reinforcement Learning of LLM Agents
1️⃣ 一句话总结
这篇论文提出了一种名为语义一致性策略优化(SCPO)的新方法,通过从同一组中成功的智能体轨迹里提取步骤级奖励信号,解决了传统分组强化学习中失败轨迹内语义相似步骤得到矛盾奖励的问题,从而显著提升了LLM智能体在多步复杂任务(如ALFWorld和WebShop)中的表现。