arXiv最新AI论文速览速学

🔍

标签: #policy optimization ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 166 72小时内新更新论文 72h更新 171 最新: How Log-Barrier Helps Exploration in Policy Optimization 03-17

arXiv ID: 2602.10819

arXiv 提交日期: 2026-02-11

llm reinforcement learning model training policy optimization on-policy learning off-policy knowledge alignment reasoning

RePO：通过重述策略优化桥接在线策略学习与离线策略知识 / RePO: Bridging On-Policy Learning and Off-Policy Knowledge through Rephrasing Policy Optimization

1️⃣ 一句话总结

这篇论文提出了一种名为RePO的新方法，通过让大语言模型先理解外部的高质量知识，再将其重述成符合自身风格的数据来训练，从而既稳定又高效地提升了模型在特定领域任务上的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.10019

arXiv 提交日期: 2026-02-10

reinforcement learning model training agents advantage estimation policy optimization reasoning models credit assignment online rollout

ADORA：基于动态优势估计的强化学习推理模型训练 / ADORA: Training Reasoning Models with Dynamic Advantage Estimation on Reinforcement Learning

1️⃣ 一句话总结

这篇论文提出了一种名为ADORA的新方法，它通过动态评估训练样本的价值来改进强化学习中的策略优化，从而让推理模型在数学和几何等复杂任务上学得更快、更稳定。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.10048

arXiv 提交日期: 2026-02-10

llm model training agents chain-of-thought reasoning compression reinforcement learning policy optimization efficiency

通过细粒度分组策略优化实现长思维链压缩 / Long Chain-of-Thought Compression via Fine-Grained Group Policy Optimization

1️⃣ 一句话总结

这篇论文提出了一种名为FGO的新算法，它能够智能地压缩大型语言模型生成的冗长思维链，在保持模型推理能力不变的前提下，有效降低计算成本和延迟，并解决了原有方法数据利用效率低和熵崩溃的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.09207

arXiv 提交日期: 2026-02-09

reinforcement learning model training agents causal reasoning diffusion policies offline rl sequential decision-making policy optimization

CausalGDP：用于强化学习的因果引导扩散策略 / CausalGDP: Causality-Guided Diffusion Policies for Reinforcement Learning

1️⃣ 一句话总结

这篇论文提出了一种名为CausalGDP的新方法，它将因果推理融入基于扩散模型的强化学习中，通过识别并引导那些真正能带来高回报的关键动作，从而在复杂任务中取得了比现有方法更好的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.05547

arXiv 提交日期: 2026-02-05

llm model training agents reinforcement learning post-training multi-task learning policy optimization reasoning

多任务GRPO：跨任务的可靠大语言模型推理 / Multi-Task GRPO: Reliable LLM Reasoning Across Tasks

1️⃣ 一句话总结

这项研究提出了一种名为MT-GRPO的新算法，通过动态调整任务权重和引入比例保持采样器，有效解决了多任务强化学习训练中常见的性能失衡问题，从而显著提升了模型在所有任务上的最差性能，并提高了训练效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.05717

arXiv 提交日期: 2026-02-05

reinforcement learning theory model training policy optimization exploration collapse support coverage gradient alignment regularization

锚定策略优化：通过支持约束修正来缓解探索崩溃 / Anchored Policy Optimization: Mitigating Exploration Collapse Via Support-Constrained Rectification

1️⃣ 一句话总结

这篇论文提出了一种名为‘锚定策略优化’的新方法，通过确保智能体在强化学习中始终覆盖有效的行动选项，解决了现有方法因过度‘锐化’而导致的探索范围崩溃问题，从而在提升任务成功率的同时保持了决策的多样性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.04380

arXiv 提交日期: 2026-02-04

llm model training theory policy optimization bregman divergence reasoning mirror descent regularization

超越KL散度：利用灵活的布雷格曼散度进行大语言模型推理的策略优化 / Beyond KL Divergence: Policy Optimization with Flexible Bregman Divergences for LLM Reasoning

1️⃣ 一句话总结

这篇论文提出了一个名为GBMPO的新框架，通过引入更灵活的布雷格曼散度（如概率空间的L2距离或可学习的神经网络映射）来代替传统的KL散度进行策略正则化，从而显著提升了大语言模型在数学推理和代码生成任务上的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.03392

arXiv 提交日期: 2026-02-03

llm model training theory reinforcement learning fine-tuning entropy dynamics exploration-exploitation policy optimization

论大语言模型强化微调中的熵动态 / On the Entropy Dynamics in Reinforcement Fine-Tuning of Large Language Models

1️⃣ 一句话总结

这篇论文建立了一个理论框架来分析大语言模型在强化微调过程中输出多样性的变化规律，并基于此提出了控制多样性的方法，以帮助模型在微调时更好地平衡探索新答案和利用已知知识。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.01853

arXiv 提交日期: 2026-02-02

reinforcement learning systems model training a/b testing time series transformer policy optimization treatment effect estimation

基于Transformer强化学习的A/B测试时间序列实验设计 / Designing Time Series Experiments in A/B Testing with Transformer Reinforcement Learning

1️⃣ 一句话总结

这篇论文提出了一种结合Transformer和强化学习的新方法，用于解决在随时间顺序分配策略的A/B测试中，如何更有效地利用全部历史数据来优化实验设计，从而更准确地评估策略效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.02150

arXiv 提交日期: 2026-02-02

reinforcement learning model training agents test-time adaptation policy optimization exploration entropy regularization online learning

ECHO：用于测试时强化学习的熵-置信度混合优化 / ECHO: Entropy-Confidence Hybrid Optimization for Test-Time Reinforcement Learning

1️⃣ 一句话总结

本文提出了一种名为ECHO的新方法，通过结合熵和置信度来智能控制决策树的分支与剪枝，有效解决了测试时强化学习中因探索效率低和早期伪标签噪声导致的性能下降问题，从而在多个推理任务上取得了更好的效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2602.10819

1️⃣ 一句话总结

arXiv ID: 2602.10019

1️⃣ 一句话总结

arXiv ID: 2602.10048

1️⃣ 一句话总结

arXiv ID: 2602.09207

1️⃣ 一句话总结

arXiv ID: 2602.05547

1️⃣ 一句话总结

arXiv ID: 2602.05717

1️⃣ 一句话总结

arXiv ID: 2602.04380

1️⃣ 一句话总结

arXiv ID: 2602.03392

1️⃣ 一句话总结

arXiv ID: 2602.01853

1️⃣ 一句话总结

arXiv ID: 2602.02150

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2602.10819 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.10019 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.10048 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.09207 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.05547 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.05717 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.04380 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.03392 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.01853 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.02150 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2602.10819

arXiv ID: 2602.10019

arXiv ID: 2602.10048

arXiv ID: 2602.09207

arXiv ID: 2602.05547

arXiv ID: 2602.05717

arXiv ID: 2602.04380

arXiv ID: 2602.03392

arXiv ID: 2602.01853

arXiv ID: 2602.02150