🤖 系统
11-30 17:42
📄 论文总结
基于信息增益的策略优化:一种简单有效的多轮大语言模型智能体训练方法 / Information Gain-based Policy Optimization: A Simple and Effective Approach for Multi-Turn LLM Agents
1️⃣ 一句话总结
本文提出了一种名为IGPO的强化学习新方法,通过计算模型自身对正确答案概率的增量变化作为每轮交互的奖励,有效解决了多轮任务中奖励稀疏和信用分配困难的问题,显著提升了智能体的准确性和学习效率。