📄 论文总结
自参考策略优化:面向视觉-语言-动作模型 / SRPO: Self-Referential Policy Optimization for Vision-Language-Action Models
1️⃣ 一句话总结
这项研究提出了一种自参考策略优化方法,通过利用模型自身成功轨迹作为参考来为失败尝试打分,无需额外演示或人工设计奖励,显著提升了机器人操作任务的训练效率和性能。
请先 登录 后再提交论文
自参考策略优化:面向视觉-语言-动作模型 / SRPO: Self-Referential Policy Optimization for Vision-Language-Action Models
这项研究提出了一种自参考策略优化方法,通过利用模型自身成功轨迹作为参考来为失败尝试打分,无需额外演示或人工设计奖励,显著提升了机器人操作任务的训练效率和性能。
EntroPIC:通过基于比例-积分控制的熵稳定方法实现大语言模型的长期稳定训练 / EntroPIC: Towards Stable Long-Term Training of LLMs via Entropy Stabilization with Proportional-Integral Control
本文提出了一种名为EntroPIC的新方法,通过动态调整正负样本的损失系数来稳定训练过程中的熵值,从而确保大语言模型在长期强化学习训练中保持高效探索和稳定收敛。
Kandinsky 5.0:用于图像和视频生成的基础模型系列 / Kandinsky 5.0: A Family of Foundation Models for Image and Video Generation
这篇论文介绍了Kandinsky 5.0,一个包含图像和视频生成功能的先进基础模型系列,通过创新的数据管理和训练技术实现了高质量、高效率的生成效果,并开源以推动相关研究发展。
P1:通过强化学习掌握物理奥林匹克竞赛 / P1: Mastering Physics Olympiads with Reinforcement Learning
这篇论文提出了一个名为P1的系列开源模型,它完全通过强化学习训练,在解决国际物理奥林匹克竞赛等高水平物理问题上表现卓越,甚至超越了人类金牌得主,同时展现出在数学和编程等其他推理任务上的强大通用能力。
MiroThinker:通过模型、上下文和交互扩展提升开源研究智能体性能边界 / MiroThinker: Pushing the Performance Boundaries of Open-Source Research Agents via Model, Context, and Interactive Scaling
这篇论文提出了一个名为MiroThinker的开源研究智能体,它通过增加模型与环境交互的深度和频率来提升性能,在多项测试中表现优异,接近商业系统的水平,并证明交互扩展是提升智能体能力的第三个关键维度,与模型规模和上下文长度同样重要。
GroupRank:一种由强化学习驱动的分组重排序范式 / GroupRank: A Groupwise Reranking Paradigm Driven by Reinforcement Learning
这篇论文提出了一种名为GroupRank的新型分组重排序方法,它结合了点式方法的灵活性和列式方法的全局比较能力,通过强化学习和合成数据训练,有效提升了检索增强生成系统的排序性能。
MMaDA-并行:用于思维感知编辑与生成的多模态大扩散语言模型 / MMaDA-Parallel: Multimodal Large Diffusion Language Models for Thinking-Aware Editing and Generation
这项研究提出了一种并行多模态扩散框架,通过让文本和图像在生成过程中持续双向交互,有效解决了传统序列模型因错误传播导致的图文不一致问题,显著提升了思维感知图像合成的质量。
WMPO:基于世界模型的视觉-语言-动作模型策略优化 / WMPO: World Model-based Policy Optimization for Vision-Language-Action Models
这项研究提出了一种名为WMPO的新方法,让机器人能够通过内部模拟学习改进自身动作,无需在真实环境中反复试错,从而更高效地掌握复杂操作技能并具备自我纠错能力。
未走之路:RLVR可证明地偏离主方向学习 / The Path Not Taken: RLVR Provably Learns Off the Principals
这篇论文揭示了强化学习与可验证奖励(RLVR)方法通过避开神经网络权重空间的主方向,在保持模型频谱稳定的微小参数更新中实现性能提升,其优化机制与传统的监督微调(SFT)有本质不同。
RLVE:通过自适应可验证环境扩展语言模型的强化学习 / RLVE: Scaling Up Reinforcement Learning for Language Models with Adaptive Verifiable Environments
这篇论文提出了一种名为RLVE的新方法,通过创建大量能自动调整题目难度的可验证环境来训练语言模型,显著提升了模型在多种推理任务上的表现,且比传统强化学习方法更高效。