arXiv最新AI论文速览速学

🔍

标签: #exploration ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 39 72小时内新更新论文 72h更新 139 最新: Too Correct to Learn: Reinforcement Learning on Saturated Reasoning Data 04-25

arXiv ID: 2604.18493

arXiv 提交日期: 2026-04-20

llm reinforcement learning reasoning mode collapse exploration decoding strategy generalization

太正确反而学不到：对饱和推理数据的强化学习 / Too Correct to Learn: Reinforcement Learning on Saturated Reasoning Data

1️⃣ 一句话总结

本文发现，当大型语言模型在已有高分数据集上做强化学习时，由于缺少错误样本，一个常用的算法（GRPO）会失去学习信号并导致模型输出变得单一。为解决这个问题，作者提出了一种名为CUTS的采样策略，在不改动模型参数的前提下，强制从高置信度但多样化的候选答案中均匀选择，再结合多类型训练数据，使模型在更难的新题目上成绩提升高达15%以上。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.17468

arXiv 提交日期: 2026-03-18

reinforcement learning llm agents soft actor-critic exploration action guidance sample efficiency continuous control

基于大语言模型动作级指导的高效软演员-评论家连续控制算法 / Efficient Soft Actor-Critic with LLM-Based Action-Level Guidance for Continuous Control

1️⃣ 一句话总结

这篇论文提出了一种名为GuidedSAC的新强化学习方法，它巧妙地利用大语言模型作为‘智能导师’，在训练过程中为智能体提供动作级别的实时指导，从而在复杂任务中实现更快速、更高效的学习，同时保证了算法的理论稳定性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.15001

arXiv 提交日期: 2026-03-16

reinforcement learning theory model training policy optimization exploration stochastic gradient bandit log-barrier regularization sample complexity

对数障碍函数如何助力策略优化中的探索 / How Log-Barrier Helps Exploration in Policy Optimization

1️⃣ 一句话总结

这篇论文提出了一种在对策略优化目标中加入对数障碍函数的新方法，它能在不增加样本复杂度的前提下，强制算法进行有效探索，从而在更现实的条件下保证收敛到最优策略。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.07853

arXiv 提交日期: 2026-03-09

llm agents model training research agents tool usage exploration reinforcement learning synthetic data

SynPlanResearch-R1：通过合成规划鼓励深度研究中的工具探索 / SynPlanResearch-R1: Encouraging Tool Exploration for Deep Research with Synthetic Plans

1️⃣ 一句话总结

这篇论文提出了一个名为SynPlanResearch-R1的框架，它通过合成工具使用轨迹来引导研究型AI代理进行更深入、更全面的探索，从而显著提升了其在多项复杂网络搜索任务中的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.17062

arXiv 提交日期: 2026-02-19

multi-agents reinforcement learning model training value decomposition exploration multi-agent q-learning suboptimal actions softmax policy

在多智能体强化学习中保留次优行动以追踪动态最优解 / Retaining Suboptimal Actions to Follow Shifting Optima in Multi-Agent Reinforcement Learning

1️⃣ 一句话总结

本文提出了一种名为S2Q的新方法，通过让智能体在学习时记住多个有价值的备选行动，有效解决了传统多智能体协作算法因环境变化而陷入次优策略的问题，从而提升了系统的适应性和整体表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.11491

arXiv 提交日期: 2026-02-12

machine learning model training agents generative flow networks combinatorial multi-armed bandit probabilistic sampling exploration high-reward solutions

探索生成流网络中的多个高分值子空间 / Exploring Multiple High-Scoring Subspaces in Generative Flow Networks

1️⃣ 一句话总结

这篇论文提出了一种名为CMAB-GFN的新方法，通过结合组合多臂老虎机来引导生成流网络的探索过程，使其能更高效地发现多种高质量的解，同时避免在低质量区域浪费资源。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.04265

arXiv 提交日期: 2026-02-04

llm reinforcement learning model training reward shaping reasoning exploration mathematical reasoning rlvr

从“增厚”到“减薄”：基于人类学习动态的奖励塑造方法用于大语言模型推理 / Thickening-to-Thinning: Reward Shaping via Human-Inspired Learning Dynamics for LLM Reasoning

1️⃣ 一句话总结

这篇论文提出了一种名为T2T的动态奖励框架，它模仿人类学习过程，在模型推理错误时鼓励探索更长的解题路径以拓宽思路，在推理正确时则奖励简洁表达以提升效率，从而显著提升大语言模型在数学推理任务上的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.03635

arXiv 提交日期: 2026-02-03

llm reinforcement learning model training trust region entropy regularization exploration ppo reasoning

TRE：在信任区域内鼓励探索 / TRE: Encouraging Exploration in the Trust Region

1️⃣ 一句话总结

这篇论文提出了一种名为‘信任区域熵’的新方法，通过将探索限制在模型可信的范围内，有效解决了大语言模型在强化学习中因盲目探索而性能下降的问题，并在数学推理等多个任务上取得了更好的效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.01705

arXiv 提交日期: 2026-02-02

llm reinforcement learning model training latent diffusion reasoning diversity preservation chain-of-thought exploration

超越模式激发：通过潜在扩散推理器实现多样性保持的强化学习 / Beyond Mode Elicitation: Diversity-Preserving Reinforcement Learning via Latent Diffusion Reasoner

1️⃣ 一句话总结

这篇论文提出了一种名为LaDi-RL的新方法，它通过在一个连续的潜在空间中进行扩散引导的探索来优化大语言模型的推理过程，有效避免了传统方法中因强化学习导致思维链多样性下降的问题，从而在代码生成和数学推理任务上取得了更好的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.02150

arXiv 提交日期: 2026-02-02

reinforcement learning model training agents test-time adaptation policy optimization exploration entropy regularization online learning

ECHO：用于测试时强化学习的熵-置信度混合优化 / ECHO: Entropy-Confidence Hybrid Optimization for Test-Time Reinforcement Learning

1️⃣ 一句话总结

本文提出了一种名为ECHO的新方法，通过结合熵和置信度来智能控制决策树的分支与剪枝，有效解决了测试时强化学习中因探索效率低和早期伪标签噪声导致的性能下降问题，从而在多个推理任务上取得了更好的效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.18493

1️⃣ 一句话总结

arXiv ID: 2603.17468

1️⃣ 一句话总结

arXiv ID: 2603.15001

1️⃣ 一句话总结

arXiv ID: 2603.07853

1️⃣ 一句话总结

arXiv ID: 2602.17062

1️⃣ 一句话总结

arXiv ID: 2602.11491

1️⃣ 一句话总结

arXiv ID: 2602.04265

1️⃣ 一句话总结

arXiv ID: 2602.03635

1️⃣ 一句话总结

arXiv ID: 2602.01705

1️⃣ 一句话总结

arXiv ID: 2602.02150

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.18493 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.17468 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.15001 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.07853 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.17062 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.11491 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.04265 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.03635 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.01705 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.02150 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.18493

arXiv ID: 2603.17468

arXiv ID: 2603.15001

arXiv ID: 2603.07853

arXiv ID: 2602.17062

arXiv ID: 2602.11491

arXiv ID: 2602.04265

arXiv ID: 2602.03635

arXiv ID: 2602.01705

arXiv ID: 2602.02150