arXiv ID:
2602.19225
arXiv 提交日期: 2026-02-22
基于邻近性的多轮优化:面向大语言模型智能体训练的实用信用分配方法 / Proximity-Based Multi-Turn Optimization: Practical Credit Assignment for LLM Agent Training
1️⃣ 一句话总结
这篇论文提出了一种名为ProxMO的新方法,它通过动态评估任务难度和步骤间的语义关联,更精准地识别并奖励大语言模型智能体在复杂多轮对话中的关键成功步骤,从而用更少的训练样本实现更高效的性能提升,并能轻松集成到现有的工业级训练流程中。