arXiv最新AI论文速览速学

🔍

标签: #exploration ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 50 72小时内新更新论文 72h更新 50 最新: Can In-Context Learning Support Intrinsic Curiosity? 06-22

arXiv ID: 2606.19476

arXiv 提交日期: 2026-06-17

reinforcement learning machine learning agents intrinsic curiosity in-context learning exploration learning progress active learning

上下文学习能否支持内在好奇心？ / Can In-Context Learning Support Intrinsic Curiosity?

1️⃣ 一句话总结

本文探讨了能否利用大语言模型的上下文学习能力，在不进行昂贵梯度更新的情况下，高效计算“学习进步”奖励信号，从而驱动智能体自主探索数据，理论证明在一般强化学习环境中该方法存在偏差，但在非时序场景（如主动学习）中可以收敛到正确结果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.05872

arXiv 提交日期: 2026-06-04

agents model evaluation machine learning entropy behavioral metrics exploration robustness agent evaluation

基于熵的AI智能体评估：一种用于测量行为模式的轻量级框架 / Entropy-Based Evaluation of AI Agents: A Lightweight Framework for Measuring Behavioral Patterns

1️⃣ 一句话总结

该论文提出了一种名为EEA的轻量级评估框架，通过分析AI智能体在决策过程中的行为模式（如探索程度、重复性、工具使用效率等），利用熵这一概念来量化其行为质量，从而弥补传统仅依赖任务完成度等单一指标的不足。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.25931

arXiv 提交日期: 2026-05-25

agents benchmark reinforcement learning arc-agi exploration speed-depth trade-off epistemic reasoning benchmark critique

探索再求解：面向ARC-AGI-3认知智能体的速度与深度权衡 / Explore Before You Solve: The Speed--Depth Trade-off in Epistemic Agents for ARC-AGI-3

1️⃣ 一句话总结

本文揭示ARC-AGI-3公开测试集存在严重漏洞：大部分题目无需智能推理，仅凭简单试探步骤即可通过；为解决此问题，作者提出一个分三阶段（探索/验证/规划）的认知智能体AERA，并通过速度与探索深度的权衡理论，证明高效智能体必须优先进行信息探索，才能在真正的智能测试中取得好成绩。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.13037

arXiv 提交日期: 2026-05-13

agents llm reinforcement learning interactive agents cognitive map long-horizon planning exploration reasoning

MAP：一种用于长期交互式智能体推理的“先构建地图，再行动”范式 / MAP: A Map-then-Act Paradigm for Long-Horizon Interactive Agent Reasoning

1️⃣ 一句话总结

这篇论文提出了一种名为MAP的新型智能体框架，让AI在执行复杂任务前先主动探索环境、构建一张结构化的“认知地图”，从而避免了传统方法靠反复试错才能理解环境的低效循环，实验证明该范式在多种游戏和基准测试中显著提升了性能，甚至比直接模仿专家行为更有效。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.18493

arXiv 提交日期: 2026-04-20

llm reinforcement learning reasoning mode collapse exploration decoding strategy generalization

太正确反而学不到：对饱和推理数据的强化学习 / Too Correct to Learn: Reinforcement Learning on Saturated Reasoning Data

1️⃣ 一句话总结

本文发现，当大型语言模型在已有高分数据集上做强化学习时，由于缺少错误样本，一个常用的算法（GRPO）会失去学习信号并导致模型输出变得单一。为解决这个问题，作者提出了一种名为CUTS的采样策略，在不改动模型参数的前提下，强制从高置信度但多样化的候选答案中均匀选择，再结合多类型训练数据，使模型在更难的新题目上成绩提升高达15%以上。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.17468

arXiv 提交日期: 2026-03-18

reinforcement learning llm agents soft actor-critic exploration action guidance sample efficiency continuous control

基于大语言模型动作级指导的高效软演员-评论家连续控制算法 / Efficient Soft Actor-Critic with LLM-Based Action-Level Guidance for Continuous Control

1️⃣ 一句话总结

这篇论文提出了一种名为GuidedSAC的新强化学习方法，它巧妙地利用大语言模型作为‘智能导师’，在训练过程中为智能体提供动作级别的实时指导，从而在复杂任务中实现更快速、更高效的学习，同时保证了算法的理论稳定性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.15001

arXiv 提交日期: 2026-03-16

reinforcement learning theory model training policy optimization exploration stochastic gradient bandit log-barrier regularization sample complexity

对数障碍函数如何助力策略优化中的探索 / How Log-Barrier Helps Exploration in Policy Optimization

1️⃣ 一句话总结

这篇论文提出了一种在对策略优化目标中加入对数障碍函数的新方法，它能在不增加样本复杂度的前提下，强制算法进行有效探索，从而在更现实的条件下保证收敛到最优策略。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.07853

arXiv 提交日期: 2026-03-09

llm agents model training research agents tool usage exploration reinforcement learning synthetic data

SynPlanResearch-R1：通过合成规划鼓励深度研究中的工具探索 / SynPlanResearch-R1: Encouraging Tool Exploration for Deep Research with Synthetic Plans

1️⃣ 一句话总结

这篇论文提出了一个名为SynPlanResearch-R1的框架，它通过合成工具使用轨迹来引导研究型AI代理进行更深入、更全面的探索，从而显著提升了其在多项复杂网络搜索任务中的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.17062

arXiv 提交日期: 2026-02-19

multi-agents reinforcement learning model training value decomposition exploration multi-agent q-learning suboptimal actions softmax policy

在多智能体强化学习中保留次优行动以追踪动态最优解 / Retaining Suboptimal Actions to Follow Shifting Optima in Multi-Agent Reinforcement Learning

1️⃣ 一句话总结

本文提出了一种名为S2Q的新方法，通过让智能体在学习时记住多个有价值的备选行动，有效解决了传统多智能体协作算法因环境变化而陷入次优策略的问题，从而提升了系统的适应性和整体表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.11491

arXiv 提交日期: 2026-02-12

machine learning model training agents generative flow networks combinatorial multi-armed bandit probabilistic sampling exploration high-reward solutions

探索生成流网络中的多个高分值子空间 / Exploring Multiple High-Scoring Subspaces in Generative Flow Networks

1️⃣ 一句话总结

这篇论文提出了一种名为CMAB-GFN的新方法，通过结合组合多臂老虎机来引导生成流网络的探索过程，使其能更高效地发现多种高质量的解，同时避免在低质量区域浪费资源。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.19476

1️⃣ 一句话总结

arXiv ID: 2606.05872

1️⃣ 一句话总结

arXiv ID: 2605.25931

1️⃣ 一句话总结

arXiv ID: 2605.13037

1️⃣ 一句话总结

arXiv ID: 2604.18493

1️⃣ 一句话总结

arXiv ID: 2603.17468

1️⃣ 一句话总结

arXiv ID: 2603.15001

1️⃣ 一句话总结

arXiv ID: 2603.07853

1️⃣ 一句话总结

arXiv ID: 2602.17062

1️⃣ 一句话总结

arXiv ID: 2602.11491

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.19476 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.05872 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.25931 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.13037 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.18493 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.17468 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.15001 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.07853 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.17062 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.11491 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.19476

arXiv ID: 2606.05872

arXiv ID: 2605.25931

arXiv ID: 2605.13037

arXiv ID: 2604.18493

arXiv ID: 2603.17468

arXiv ID: 2603.15001

arXiv ID: 2603.07853

arXiv ID: 2602.17062

arXiv ID: 2602.11491