📄 论文总结
通过预测强化行动策略 / Reinforcing Action Policies by Prophesying
1️⃣ 一句话总结
这篇论文提出了一种名为ProphRL的新方法,通过构建一个能够预测动作结果的视频模型和专门的强化学习技术,有效提升了视觉-语言-动作策略的适应性和成功率,无需依赖昂贵的真实机器人实验。
请先 登录 后再提交论文
通过预测强化行动策略 / Reinforcing Action Policies by Prophesying
这篇论文提出了一种名为ProphRL的新方法,通过构建一个能够预测动作结果的视频模型和专门的强化学习技术,有效提升了视觉-语言-动作策略的适应性和成功率,无需依赖昂贵的真实机器人实验。
视频生成模型是优秀的潜在奖励模型 / Video Generation Models Are Good Latent Reward Models
这项研究提出了一种名为PRFL的新方法,直接在视频生成的潜在空间中进行偏好优化,从而在显著降低计算成本和内存消耗的同时,更好地让生成的视频内容符合人类偏好。
视频作为答案:利用联合GRPO预测并生成下一视频事件 / Video-as-Answer: Predict and Generate Next Video Event with Joint-GRPO
这篇论文提出了一种新方法,能够根据视频和问题直接生成展示下一事件的视频答案,而不是文字描述,使得教学和创意探索更加直观。
VisPlay:从图像中自我演化的视觉语言模型 / VisPlay: Self-Evolving Vision-Language Models from Images
这篇论文提出了一个名为VisPlay的自进化强化学习框架,让视觉语言模型能够利用大量未标注图像数据,通过让模型扮演提问者和回答者两个角色相互训练,自主提升视觉推理能力,并在多个基准测试中显著提高了性能。
自参考策略优化:面向视觉-语言-动作模型 / SRPO: Self-Referential Policy Optimization for Vision-Language-Action Models
这项研究提出了一种自参考策略优化方法,通过利用模型自身成功轨迹作为参考来为失败尝试打分,无需额外演示或人工设计奖励,显著提升了机器人操作任务的训练效率和性能。
EntroPIC:通过基于比例-积分控制的熵稳定方法实现大语言模型的长期稳定训练 / EntroPIC: Towards Stable Long-Term Training of LLMs via Entropy Stabilization with Proportional-Integral Control
本文提出了一种名为EntroPIC的新方法,通过动态调整正负样本的损失系数来稳定训练过程中的熵值,从而确保大语言模型在长期强化学习训练中保持高效探索和稳定收敛。
P1:通过强化学习掌握物理奥林匹克竞赛 / P1: Mastering Physics Olympiads with Reinforcement Learning
这篇论文提出了一个名为P1的系列开源模型,它完全通过强化学习训练,在解决国际物理奥林匹克竞赛等高水平物理问题上表现卓越,甚至超越了人类金牌得主,同时展现出在数学和编程等其他推理任务上的强大通用能力。
GroupRank:一种由强化学习驱动的分组重排序范式 / GroupRank: A Groupwise Reranking Paradigm Driven by Reinforcement Learning
这篇论文提出了一种名为GroupRank的新型分组重排序方法,它结合了点式方法的灵活性和列式方法的全局比较能力,通过强化学习和合成数据训练,有效提升了检索增强生成系统的排序性能。
WMPO:基于世界模型的视觉-语言-动作模型策略优化 / WMPO: World Model-based Policy Optimization for Vision-Language-Action Models
这项研究提出了一种名为WMPO的新方法,让机器人能够通过内部模拟学习改进自身动作,无需在真实环境中反复试错,从而更高效地掌握复杂操作技能并具备自我纠错能力。
未走之路:RLVR可证明地偏离主方向学习 / The Path Not Taken: RLVR Provably Learns Off the Principals
这篇论文揭示了强化学习与可验证奖励(RLVR)方法通过避开神经网络权重空间的主方向,在保持模型频谱稳定的微小参数更新中实现性能提升,其优化机制与传统的监督微调(SFT)有本质不同。