📄 论文总结
PORTool:基于奖励树的工具使用大语言模型训练方法 / PORTool: Tool-Use LLM Training with Rewarded Tree
1️⃣ 一句话总结
这篇论文提出了一种名为PORTool的强化学习方法,通过构建树状轨迹并分配步骤奖励来训练大语言模型更有效地使用外部工具,从而在动态环境中提升问题解决的准确性和效率。
请先 登录 后再提交论文
PORTool:基于奖励树的工具使用大语言模型训练方法 / PORTool: Tool-Use LLM Training with Rewarded Tree
这篇论文提出了一种名为PORTool的强化学习方法,通过构建树状轨迹并分配步骤奖励来训练大语言模型更有效地使用外部工具,从而在动态环境中提升问题解决的准确性和效率。
CityRiSE:通过强化学习在视觉语言模型中推理城市社会经济状况 / CityRiSE: Reasoning Urban Socio-Economic Status in Vision-Language Models via Reinforcement Learning
这项研究提出了一种名为CityRiSE的新方法,通过强化学习指导大型视觉语言模型从街景和卫星图像中识别关键视觉线索,从而更准确、可解释地预测城市社会经济状况,并在不同城市和指标上展现出更强的泛化能力。
每个问题都有其价值:基于显式人类价值的强化学习 / Every Question Has Its Own Value: Reinforcement Learning with Explicit Human Values
这项研究提出了一种新方法,通过将人类对不同问题重要程度的量化评估直接融入奖励函数,让大语言模型在训练时不仅能提升答案准确性,还能学会根据问题价值高低自动调整回答的详略程度。
Rank-GRPO:使用强化学习训练基于大语言模型的对话推荐系统 / Rank-GRPO: Training LLM-based Conversational Recommender Systems with Reinforcement Learning
这篇论文提出了一个名为ConvRec-R1的两阶段框架,通过强化学习方法有效解决了大语言模型在对话推荐任务中常出现的推荐列表质量不稳定和格式错误问题,显著提升了推荐的准确性和训练效率。
搜索自我博弈:无监督推动智能体能力前沿 / Search Self-play: Pushing the Frontier of Agent Capability without Supervision
这篇论文提出了一种名为‘搜索自我博弈’的无监督训练方法,让大型语言模型同时扮演任务提出者和问题解决者两个角色,通过相互竞争与合作来共同提升搜索能力,无需人工标注即可显著提高智能体在各种任务上的表现。
基于信息增益的策略优化:一种简单有效的多轮大语言模型智能体训练方法 / Information Gain-based Policy Optimization: A Simple and Effective Approach for Multi-Turn LLM Agents
本文提出了一种名为IGPO的强化学习新方法,通过计算模型自身对正确答案概率的增量变化作为每轮交互的奖励,有效解决了多轮任务中奖励稀疏和信用分配困难的问题,显著提升了智能体的准确性和学习效率。
LaSeR:基于末位令牌自我奖励的强化学习 / LaSeR: Reinforcement Learning with Last-Token Self-Rewarding
这篇论文提出了一种名为LaSeR的新方法,通过仅利用模型生成答案后最后一个令牌的预测概率来高效实现自我奖励,从而在无需复杂验证流程的情况下,同时提升大型语言模型的推理能力和自我评估性能。
SimKO:简单的Pass@K策略优化 / SimKO: Simple Pass@K Policy Optimization
这篇论文提出了一种名为SimKO的新方法,通过非对称地调整模型在正确和错误答案上的概率分布,有效缓解了现有强化学习方法中过度关注单一答案而忽视其他可能性的问题,从而在数学和逻辑推理任务中显著提升了模型探索多种正确答案的能力。
主动性熵平衡策略优化 / Agentic Entropy-Balanced Policy Optimization
这篇论文提出了一种名为AEPO的新强化学习算法,通过动态平衡探索过程中的不确定性,解决了现有方法因过度依赖熵信号导致的训练崩溃问题,在多个复杂任务上显著提升了智能体的工具使用能力。
揭秘强化学习在智能体推理中的应用 / Demystifying Reinforcement Learning in Agentic Reasoning
这项研究通过数据、算法和推理模式三个关键角度,揭示了提升大型语言模型智能体推理能力的有效方法,包括使用真实工具使用轨迹数据、探索友好的训练技巧以及减少工具调用的审慎策略,使得小模型也能达到甚至超越大模型的性能。