arXiv最新AI论文速览速学

🔍

标签: #policy optimization ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 166 72小时内新更新论文 72h更新 171 最新: How Log-Barrier Helps Exploration in Policy Optimization 03-17

arXiv ID: 2603.15001

arXiv 提交日期: 2026-03-16

reinforcement learning theory model training policy optimization exploration stochastic gradient bandit log-barrier regularization sample complexity

对数障碍函数如何助力策略优化中的探索 / How Log-Barrier Helps Exploration in Policy Optimization

1️⃣ 一句话总结

这篇论文提出了一种在对策略优化目标中加入对数障碍函数的新方法，它能在不增加样本复杂度的前提下，强制算法进行有效探索，从而在更现实的条件下保证收敛到最优策略。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.15434

arXiv 提交日期: 2026-03-16

llm agents natural language processing reinforcement learning dialogue systems emotional support policy optimization human feedback

倾听回声：基于标量-语言混合强化学习的用户反应感知策略优化 / Listening to the Echo: User-Reaction Aware Policy Optimization via Scalar-Verbal Hybrid Reinforcement Learning

1️⃣ 一句话总结

这篇论文提出了一种新的情感支持对话系统优化方法，它不再依赖专家定义的单一评分，而是通过模拟用户在对话中的实时反应来生成更丰富的语言反馈，从而更有效地引导对话走向积极的情感转变。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.10895

arXiv 提交日期: 2026-03-11

reinforcement learning theory agents ergodicity reward processes policy optimization markov chains trajectory performance

强化学习中的遍历性 / Ergodicity in reinforcement learning

1️⃣ 一句话总结

这篇论文指出，当强化学习中的奖励过程不具备遍历性时，传统的期望值优化目标无法保证单个智能体的长期表现，并探讨了解决这一问题的现有方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.10473

arXiv 提交日期: 2026-03-11

llm natural language processing systems generative search reward modeling alignment policy optimization information retrieval

基于搜索者偏好对齐大语言模型 / Aligning Large Language Models with Searcher Preferences

1️⃣ 一句话总结

这篇论文提出了首个用于开放式生成式搜索的大语言模型SearchLLM，它通过一个分层的多维奖励系统来确保回答的准确性、安全性和对用户需求的匹配，并在实际部署中显著提升了搜索质量和用户参与度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.04918

arXiv 提交日期: 2026-03-05

llm reinforcement learning model training policy optimization trust regions proximal policy optimization entropy collapse exploration bottleneck

BandPO：通过概率感知边界连接信任区域与比率裁剪，用于大语言模型强化学习 / BandPO: Bridging Trust Regions and Ratio Clipping via Probability-Aware Bounds for LLM Reinforcement Learning

1️⃣ 一句话总结

这篇论文提出了一种名为BandPO的新方法，通过引入一个能根据动作概率动态调整更新范围的‘Band’操作符，解决了现有强化学习算法中固定更新上限会抑制低概率但高价值策略探索的问题，从而在提升模型性能的同时有效防止了策略多样性的过早丧失。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.02196

arXiv 提交日期: 2026-03-02

agents reinforcement learning theory safe exploration conformal prediction risk control policy optimization finite-sample guarantees

保形策略控制 / Conformal Policy Control

1️⃣ 一句话总结

这篇论文提出了一种名为‘保形策略控制’的新方法，它能让AI智能体在探索新行为以提升性能时，通过数学保证始终将安全风险控制在用户设定的可接受范围内，从而解决了高风险场景下安全与探索难以兼顾的难题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.22495

arXiv 提交日期: 2026-02-26

llm model training reinforcement learning knowledge distillation reasoning reinforcement learning policy optimization model compression

面向大语言模型推理的强化学习感知知识蒸馏 / Reinforcement-aware Knowledge Distillation for LLM Reasoning

1️⃣ 一句话总结

本文提出了一种名为RLAD的新方法，通过在强化学习训练过程中智能地选择时机模仿更强大的教师模型，成功地将复杂大模型的推理能力高效地压缩到更小、更快的模型中，解决了传统方法中目标冲突和分布不匹配的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.20132

arXiv 提交日期: 2026-02-23

llm reinforcement learning model training advantage distribution reasoning policy optimization diversity distribution matching

LAD：用于推理的优势分布学习 / LAD: Learning Advantage Distribution for Reasoning

1️⃣ 一句话总结

这篇论文提出了一种名为LAD的新方法，通过让AI模型学习并匹配‘优势分布’，而不是单纯追求最高奖励，来解决当前大模型在数学和代码推理中容易陷入单一思维、缺乏多样性的问题，从而在提升准确率的同时，也增加了答案的多样性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.16704

arXiv 提交日期: 2026-02-18

llm model training natural language processing fast weight architectures long-context modeling reinforcement learning next-sequence prediction policy optimization

基于下一序列预测的强化快速权重 / Reinforced Fast Weights with Next-Sequence Prediction

1️⃣ 一句话总结

这篇论文提出了一个名为REFINE的强化学习框架，通过训练模型预测整个后续序列而非单个词，有效解决了现有快速权重模型在长文本理解中语义连贯性不足的问题，从而显著提升了其在多种长上下文任务上的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.15620

arXiv 提交日期: 2026-02-17

llm reinforcement learning model training policy optimization training stability spurious tokens mathematical reasoning fine-tuning

STAPO：通过抑制罕见伪标记来稳定大语言模型的强化学习训练 / STAPO: Stabilizing Reinforcement Learning for LLMs by Silencing Rare Spurious Tokens

1️⃣ 一句话总结

这篇论文发现大语言模型强化学习训练不稳定的根源是极少数‘伪标记’，并提出了STAPO方法，通过选择性屏蔽这些标记的梯度更新，有效提升了训练稳定性和模型在数学推理任务上的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.15001

1️⃣ 一句话总结

arXiv ID: 2603.15434

1️⃣ 一句话总结

arXiv ID: 2603.10895

1️⃣ 一句话总结

arXiv ID: 2603.10473

1️⃣ 一句话总结

arXiv ID: 2603.04918

1️⃣ 一句话总结

arXiv ID: 2603.02196

1️⃣ 一句话总结

arXiv ID: 2602.22495

1️⃣ 一句话总结

arXiv ID: 2602.20132

1️⃣ 一句话总结

arXiv ID: 2602.16704

1️⃣ 一句话总结

arXiv ID: 2602.15620

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.15001 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.15434 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.10895 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.10473 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.04918 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.02196 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.22495 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.20132 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.16704 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.15620 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.15001

arXiv ID: 2603.15434

arXiv ID: 2603.10895

arXiv ID: 2603.10473

arXiv ID: 2603.04918

arXiv ID: 2603.02196

arXiv ID: 2602.22495

arXiv ID: 2602.20132

arXiv ID: 2602.16704

arXiv ID: 2602.15620