arXiv最新AI论文速览速学

🔍

标签: #policy optimization ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 166 72小时内新更新论文 72h更新 171 最新: How Log-Barrier Helps Exploration in Policy Optimization 03-17

arXiv ID: 2601.22776

arXiv 提交日期: 2026-01-30

llm agents reinforcement learning multi-turn reasoning policy optimization reward shaping tool integration search policy

轮次阶段感知策略优化：解决多轮工具集成推理中的双重同质化困境 / TSPO: Breaking the Double Homogenization Dilemma in Multi-turn Search Policy Optimization

1️⃣ 一句话总结

本文提出了一种名为TSPO（轮次阶段感知策略优化）的新型强化学习框架，通过其核心机制——首次出现潜在奖励（FOLR），有效解决了多轮工具集成推理中存在的‘过程级奖励同质化’和‘组内奖励同质化’双重困境，无需外部奖励模型或额外标注，即可显著提升模型在多轮推理任务中的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.20614

arXiv 提交日期: 2026-01-28

llm model training reinforcement learning mathematical reasoning policy optimization data augmentation difficulty scaling question reformulation

越难越好：通过难度感知GRPO与多角度问题重构提升数学推理能力 / Harder Is Better: Boosting Mathematical Reasoning via Difficulty-Aware GRPO and Multi-Aspect Question Reformulation

1️⃣ 一句话总结

这篇论文提出了一个名为MathForge的双重框架，通过改进算法使其更关注难题，并主动生成更难的训练数据，从而显著提升大模型在数学推理任务上的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.20380

arXiv 提交日期: 2026-01-28

agents systems model training gui agents autonomous task execution multi-platform synthetic data generation policy optimization

OmegaUse：构建用于自主任务执行的通用图形用户界面智能体 / OmegaUse: Building a General-Purpose GUI Agent for Autonomous Task Execution

1️⃣ 一句话总结

这篇论文提出了一个名为OmegaUse的通用智能体模型，它能像人一样在电脑和手机屏幕上自主操作完成任务，其核心是通过创新的数据构建方法和两阶段训练策略，让模型在跨平台任务中表现出色。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.15876

arXiv 提交日期: 2026-01-22

agents model training systems computer-use agents synthetic data generation evolutionary learning policy optimization multimodal agents

EvoCUA：通过从可扩展合成经验中学习来进化计算机使用智能体 / EvoCUA: Evolving Computer Use Agents via Learning from Scalable Synthetic Experience

1️⃣ 一句话总结

这篇论文提出了一个名为EvoCUA的新型计算机使用智能体，它通过一个自我进化的循环——自动生成大量模拟任务、让智能体在其中试错学习，并根据失败经验自我纠正来提升能力——从而显著超越了以往依赖静态数据模仿的模型，在真实世界计算机任务测试中取得了当前开源模型的最佳性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.15165

arXiv 提交日期: 2026-01-21

llm model training theory diffusion language models reasoning reinforcement learning token generation policy optimization

灵活性陷阱：为何任意顺序生成反而限制了扩散语言模型的推理潜力 / The Flexibility Trap: Why Arbitrary Order Limits Reasoning Potential in Diffusion Language Models

1️⃣ 一句话总结

这篇论文发现，尽管扩散大语言模型允许以任意顺序生成文本，理论上提供了更大的探索空间，但实际上这种灵活性会导致模型回避生成关键但不确定的词汇，反而限制了其解决复杂推理任务（如数学和编程）的能力；研究提出，放弃这种任意顺序的灵活性，采用一种更简单的优化方法，反而能显著提升模型性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.13262

arXiv 提交日期: 2026-01-19

llm medical natural language processing multilingual reasoning reinforcement learning medical dataset curriculum learning policy optimization

CURE-Med：基于课程学习的强化学习框架用于多语言医学推理 / CURE-Med: Curriculum-Informed Reinforcement Learning for Multilingual Medical Reasoning

1️⃣ 一句话总结

该论文提出了一个结合课程学习思想的强化学习框架，通过构建多语言医学推理数据集并优化模型训练方法，显著提升了大型语言模型在多种语言（包括资源匮乏语言）下进行医学推理的逻辑准确性和语言一致性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.11037

arXiv 提交日期: 2026-01-16

llm agents reinforcement learning agentic search policy optimization reliability boundary awareness idk response

BAPO：面向可靠智能搜索的边界感知策略优化 / BAPO: Boundary-Aware Policy Optimization for Reliable Agentic Search

1️⃣ 一句话总结

这篇论文提出了一个名为BAPO的新强化学习框架，旨在让基于大语言模型的智能搜索系统学会在遇到证据不足或推理能力达到极限时，主动承认‘我不知道’，从而在保持高准确率的同时，显著提升其回答的可靠性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.07055

arXiv 提交日期: 2026-01-11

llm agents model training self-evolution search agents policy optimization data-free learning automated curriculum

Dr. Zero：无需训练数据的自我进化搜索智能体 / Dr. Zero: Self-Evolving Search Agents without Training Data

1️⃣ 一句话总结

这篇论文提出了一个名为Dr. Zero的框架，能让AI搜索智能体在没有外部训练数据的情况下，通过一个‘出题者’和‘解题者’相互促进、自动生成并解决越来越难问题的自我进化循环，来高效地提升其复杂推理和搜索能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.06021

arXiv 提交日期: 2026-01-09

reinforcement learning llm agents reward shaping citation awareness evidence chains policy optimization reasoning agents

链接证据：基于引文感知评分奖励的深度搜索智能体鲁棒强化学习 / Chaining the Evidence: Robust Reinforcement Learning for Deep Search Agents with Citation-Aware Rubric Rewards

1️⃣ 一句话总结

这篇论文提出了一种名为CaRR的精细奖励框架和配套的C-GRPO训练方法，通过要求AI在回答复杂问题时分解问题、提供准确引用并构建完整的证据链，有效提升了深度搜索智能体推理的全面性、事实依据和鲁棒性，减少了走捷径和捏造信息的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.04767

arXiv 提交日期: 2026-01-08

llm agents reinforcement learning policy optimization tree search multi-turn agents credit assignment exploration

AT$^2$PO：基于树搜索的智能体回合制策略优化 / AT$^2$PO: Agentic Turn-based Policy Optimization via Tree Search

1️⃣ 一句话总结

这篇论文提出了一个名为AT$^2$PO的新框架，它通过结合树搜索和回合制学习，有效解决了多轮任务中智能体探索不足、奖励分配困难等关键问题，从而显著提升了智能体在复杂任务中的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2601.22776

1️⃣ 一句话总结

arXiv ID: 2601.20614

1️⃣ 一句话总结

arXiv ID: 2601.20380

1️⃣ 一句话总结

arXiv ID: 2601.15876

1️⃣ 一句话总结

arXiv ID: 2601.15165

1️⃣ 一句话总结

arXiv ID: 2601.13262

1️⃣ 一句话总结

arXiv ID: 2601.11037

1️⃣ 一句话总结

arXiv ID: 2601.07055

1️⃣ 一句话总结

arXiv ID: 2601.06021

1️⃣ 一句话总结

arXiv ID: 2601.04767

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2601.22776 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.20614 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.20380 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.15876 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.15165 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.13262 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.11037 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.07055 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.06021 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.04767 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2601.22776

arXiv ID: 2601.20614

arXiv ID: 2601.20380

arXiv ID: 2601.15876

arXiv ID: 2601.15165

arXiv ID: 2601.13262

arXiv ID: 2601.11037

arXiv ID: 2601.07055

arXiv ID: 2601.06021

arXiv ID: 2601.04767