arXiv ID:
2603.10895
强化学习中的遍历性 / Ergodicity in reinforcement learning
1️⃣ 一句话总结
这篇论文指出,当强化学习中的奖励过程不具备遍历性时,传统的期望值优化目标无法保证单个智能体的长期表现,并探讨了解决这一问题的现有方法。
强化学习中的遍历性 / Ergodicity in reinforcement learning
这篇论文指出,当强化学习中的奖励过程不具备遍历性时,传统的期望值优化目标无法保证单个智能体的长期表现,并探讨了解决这一问题的现有方法。
IH挑战:一个用于提升前沿大语言模型指令层级能力的训练数据集 / IH-Challenge: A Training Dataset to Improve Instruction Hierarchy on Frontier LLMs
这篇论文提出了一个名为IH-Challenge的训练数据集,专门用来训练大语言模型学会在接收到相互冲突的指令时,能按照预设的优先级(如系统指令高于用户指令)做出正确响应,从而有效抵御恶意攻击并提升模型的安全性,实验表明使用该数据集训练能显著提升模型在这方面的能力。
Graph-GRPO:使用强化学习训练图流模型 / Graph-GRPO: Training Graph Flow Models with Reinforcement Learning
这篇论文提出了一种名为Graph-GRPO的新方法,它通过强化学习来训练图生成模型,使其能更好地满足复杂的人工偏好或特定任务目标,从而在药物发现等领域的分子优化任务上取得了领先的性能。
多语言推理训练场:程序化推理环境的多语言扩展 / Multilingual Reasoning Gym: Multilingual Scaling of Procedural Reasoning Environments
这篇论文提出了一个名为‘多语言推理训练场’的新平台,它在原有基础上将程序化生成的可验证推理问题扩展到了14种语言,通过精心翻译和适配确保了问题的自然性,从而能够大规模生成跨语言平行的训练数据,以支持多语言推理模型的研究。
UAV-MARL:用于紧急动态医疗物资配送的多智能体强化学习 / UAV-MARL: Multi-Agent Reinforcement Learning for Time-Critical and Dynamic Medical Supply Delivery
这篇论文提出了一个基于多智能体强化学习的框架,用于协调无人机群在紧急医疗物资配送中根据任务的紧迫性和动态变化进行实时决策与资源分配,实验表明该框架能有效提升配送效率。
评估即行动:检索增强智能体的自评估过程奖励 / Evaluate-as-Action: Self-Evaluated Process Rewards for Retrieval-Augmented Agents
这篇论文提出了一种名为EvalAct的新方法,通过让AI在每一步检索信息后立即进行自我评估打分,并结合一种新的训练算法来优化中间推理步骤,从而显著提升了检索增强智能体在复杂多步问答任务中的准确性和可靠性。
在状态转移不确定性下的鲁棒正则化策略迭代 / Robust Regularized Policy Iteration under Transition Uncertainty
这篇论文提出了一种名为RRPI的离线强化学习方法,通过将环境动态建模为不确定集并优化最坏情况下的策略,有效解决了因数据分布偏移导致的性能下降问题,使智能体能够避免执行不可靠的、超出训练数据范围的危险动作。
MM-Zero:从零数据出发的自进化多模型视觉语言模型 / MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data
这篇论文提出了一个名为MM-Zero的新框架,它能让视觉语言模型在没有初始图像数据的情况下,通过让一个基础模型扮演提议者、编码者和解答者三个不同角色进行自我协作与进化,从而显著提升其在多模态推理任务上的表现。
解耦推理与置信度:在可验证奖励的强化学习中重校准 / Decoupling Reasoning and Confidence: Resurrecting Calibration in Reinforcement Learning from Verifiable Rewards
这篇论文发现,在通过可验证奖励训练大语言模型时,追求答案准确性和追求模型对自己的答案有正确的信心(不过度自信)这两个目标是相互冲突的,因此提出了一个名为DCPO的新方法,将这两个目标分开训练,从而在保持答案准确的同时,有效解决了模型对错误答案过度自信的问题。
RubiCap:基于评分标准的强化学习用于密集图像描述生成 / RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning
这篇论文提出了一种名为RubiCap的新方法,它利用大型语言模型自动生成详细的评分标准来指导强化学习训练,从而在无需昂贵人工标注的情况下,高效地生成质量更高、更多样化的图像描述。
请先 登录 后再提交论文