arXiv最新AI论文速览速学

🔍

标签: #policy optimization ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 166 72小时内新更新论文 72h更新 171 最新: How Log-Barrier Helps Exploration in Policy Optimization 03-17

arXiv ID: 2601.05167

arXiv 提交日期: 2026-01-08

llm model training systems collaborative decoding efficient inference token-level offloading policy optimization reasoning efficiency

RelayLLM：通过协同解码实现高效推理 / RelayLLM: Efficient Reasoning via Collaborative Decoding

1️⃣ 一句话总结

这篇论文提出了一种名为RelayLLM的新方法，它让小型语言模型在生成文本时像接力赛一样，只在遇到关键难题时才动态调用大型语言模型来帮忙，从而用极低的成本（仅调用1.07%的令牌）实现了接近大型模型的推理性能，大幅降低了计算开销。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.05242

arXiv 提交日期: 2026-01-08

reinforcement learning llm model training multi-reward rl policy optimization reward normalization alignment training stability

GDPO：面向多奖励强化学习的组奖励解耦归一化策略优化 / GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization

1️⃣ 一句话总结

本文提出了一种名为GDPO的新策略优化方法，通过解耦多个奖励的归一化过程，有效解决了现有方法在多奖励强化学习中因信号模糊导致的训练不稳定和性能不佳的问题，并在工具调用、数学推理和代码推理等任务上取得了更好的效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.02256

arXiv 提交日期: 2026-01-05

model training reinforcement learning computer vision visual autoregressive models policy optimization asynchronous conflicts reward shaping credit assignment

正确实现VAR强化学习：解决视觉自回归生成中的异步策略冲突 / VAR RL Done Right: Tackling Asynchronous Policy Conflicts in Visual Autoregressive Generation

1️⃣ 一句话总结

这篇论文针对视觉自回归模型在强化学习训练中因生成步骤间输入结构不同而产生的策略冲突问题，提出了一种改进的优化框架，通过引入稳定奖励、动态权重分配和掩码传播算法，显著提升了模型生成图像的质量和与训练目标的对齐度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.00423

arXiv 提交日期: 2026-01-01

model training reinforcement learning machine learning flow matching preference alignment policy optimization stochastic differential equations entropy sampling

E-GRPO：高熵步骤驱动流模型的有效强化学习 / E-GRPO: High Entropy Steps Drive Effective Reinforcement Learning for Flow Models

1️⃣ 一句话总结

这篇论文提出了一种名为E-GRPO的新强化学习方法，它通过智能地合并低熵步骤来创造高熵采样步骤，从而解决了现有方法在训练流模型时因奖励信号稀疏模糊而导致的探索效率低下问题，有效提升了模型与人类偏好对齐的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.00501

arXiv 提交日期: 2026-01-01

multi-modal model training agents vision-language models reinforcement learning contrastive learning policy optimization perception-reasoning

CPPO：用于视觉语言策略优化的对比感知方法 / CPPO: Contrastive Perception for Vision Language Policy Optimization

1️⃣ 一句话总结

这篇论文提出了一种名为CPPO的新方法，它通过分析模型在图像扰动下的输出变化来自动识别视觉感知信息，并引入对比损失来优化多模态模型的训练，从而在不需要额外模型或复杂标注的情况下，更高效地提升视觉语言模型的综合推理能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.24615

arXiv 提交日期: 2025-12-31

llm agents systems agent framework automated generation reinforcement learning tool synthesis policy optimization

Youtu-Agent：通过自动化生成与混合策略优化提升智能体生产力 / Youtu-Agent: Scaling Agent Productivity with Automated Generation and Hybrid Policy Optimization

1️⃣ 一句话总结

这篇论文提出了一个名为Youtu-Agent的智能体框架，它能够自动生成并持续优化AI智能体，解决了传统方法配置成本高、能力僵化的问题，从而显著提升了智能体的生产效率和适应能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.24873

arXiv 提交日期: 2025-12-31

llm agents systems agentic learning policy optimization training ecosystem interaction-based alignment benchmark evaluation

任其流动：在开放智能体学习生态系统中构建摇滚乐与ROME模型 / Let It Flow: Agentic Crafting on Rock and Roll, Building the ROME Model within an Open Agentic Learning Ecosystem

1️⃣ 一句话总结

这篇论文提出了一个名为ALE的开放智能体学习生态系统，并基于此训练出名为ROME的开源智能体模型，通过整合数据合成、新型训练算法和评估基准，解决了当前智能体开发缺乏标准化、端到端基础设施的难题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.24330

arXiv 提交日期: 2025-12-30

multi-modal agents reinforcement learning vision-language models tool usage agentic reasoning benchmark policy optimization

SenseNova-MARS：通过强化学习赋能多模态智能体推理与搜索 / SenseNova-MARS: Empowering Multimodal Agentic Reasoning and Search via Reinforcement Learning

1️⃣ 一句话总结

这篇论文提出了一个名为SenseNova-MARS的新框架，它通过强化学习教会视觉语言模型像人一样，在解决复杂的视觉问题时，能动态、连贯地交替使用图像搜索、文本搜索和图像裁剪等多种外部工具，从而在知识密集型任务上超越了GPT-5等顶尖模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.23703

arXiv 提交日期: 2025-12-29

robotics reinforcement learning model training reward modeling robotic manipulation policy optimization multi-view perception reward shaping

Robo-Dopamine：用于高精度机器人操作的通用工序奖励建模 / Robo-Dopamine: General Process Reward Modeling for High-Precision Robotic Manipulation

1️⃣ 一句话总结

本文提出了一种名为Dopamine-Reward的新方法，通过构建一个能理解操作步骤细节、融合多视角信息的通用奖励模型，并结合一个理论上更可靠的奖励塑造框架，解决了机器人强化学习中奖励函数设计难、训练效率低的问题，使机器人仅需少量真实交互就能快速学会复杂精细的操作任务。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.21625

arXiv 提交日期: 2025-12-25

llm reinforcement learning model training reasoning models policy optimization advantage shaping rlvr sample polarity

重新思考可验证奖励强化学习中的样本极性 / Rethinking Sample Polarity in Reinforcement Learning with Verifiable Rewards

1️⃣ 一句话总结

这篇论文通过研究发现，在训练大型推理模型时，使用正确（正极性）和错误（负极性）的推理路径分别能强化已有模式和探索新路径，并据此提出了一种名为A3PO的新方法，能更智能地分配奖励信号，从而在多个推理任务上取得了更好的效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2601.05167

1️⃣ 一句话总结

arXiv ID: 2601.05242

1️⃣ 一句话总结

arXiv ID: 2601.02256

1️⃣ 一句话总结

arXiv ID: 2601.00423

1️⃣ 一句话总结

arXiv ID: 2601.00501

1️⃣ 一句话总结

arXiv ID: 2512.24615

1️⃣ 一句话总结

arXiv ID: 2512.24873

1️⃣ 一句话总结

arXiv ID: 2512.24330

1️⃣ 一句话总结

arXiv ID: 2512.23703

1️⃣ 一句话总结

arXiv ID: 2512.21625

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2601.05167 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.05242 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.02256 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.00423 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.00501 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.24615 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.24873 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.24330 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.23703 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.21625 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2601.05167

arXiv ID: 2601.05242

arXiv ID: 2601.02256

arXiv ID: 2601.00423

arXiv ID: 2601.00501

arXiv ID: 2512.24615

arXiv ID: 2512.24873

arXiv ID: 2512.24330

arXiv ID: 2512.23703

arXiv ID: 2512.21625