arXiv最新AI论文速览速学

🔍

标签: #exploration-exploitation ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 50 72小时内新更新论文 72h更新 50 最新: Long Live The Balance: Information Bottleneck Driven Tree-based Policy Optimization 06-01

arXiv ID: 2605.28109

arXiv 提交日期: 2026-05-27

llm reinforcement learning information bottleneck exploration-exploitation tree search online rl reasoning

长期平衡：信息瓶颈驱动的树形策略优化 / Long Live The Balance: Information Bottleneck Driven Tree-based Policy Optimization

1️⃣ 一句话总结

本文针对大语言模型在线强化学习中探索与利用不平衡的问题，提出了一种基于信息瓶颈理论的新指标IB-Score来量化平衡程度，并设计了一种树形采样策略，在相同令牌预算下获得更多训练轨迹，从而显著提升模型在复杂推理任务上的性能表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.14769

arXiv 提交日期: 2026-03-16

llm model training agents generative optimization stochastic optimization meta-learning priority queue exploration-exploitation

POLCA：基于大语言模型的随机生成式优化框架 / POLCA: Stochastic Generative Optimization with LLM

1️⃣ 一句话总结

这篇论文提出了一个名为POLCA的新型优化框架，它利用大语言模型作为优化器，通过结合奖励反馈和历史经验，高效且鲁棒地自动优化复杂的系统（如提示词或多轮智能体），并在多种任务上超越了现有方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.21887

arXiv 提交日期: 2026-02-25

llm model training natural language processing reinforcement learning multilingual reasoning post-training exploration-exploitation language selection

ExpLang：通过策略性思考语言选择改进大语言模型推理中的探索与利用 / ExpLang: Improved Exploration and Exploitation in LLM Reasoning with On-Policy Thinking Language Selection

1️⃣ 一句话总结

这篇论文提出了一种名为ExpLang的新方法，它允许大语言模型在强化学习训练过程中自主选择使用哪种语言进行内部思考，从而通过利用多语言优势来提升模型的推理能力和最终表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.17315

arXiv 提交日期: 2026-02-19

theory reinforcement learning agents multi-armed bandits graph processes regret analysis exploration-exploitation random walk

闪烁多臂老虎机 / Flickering Multi-Armed Bandits

1️⃣ 一句话总结

这篇论文提出了一个名为‘闪烁多臂老虎机’的新框架，用于解决在每一轮决策中可选‘手臂’（或行动）会动态变化且受先前选择限制的强化学习问题，并通过结合随机游走探索和导航利用的两阶段算法，在多种随机图模型下实现了接近最优的后悔上界。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.03392

arXiv 提交日期: 2026-02-03

llm model training theory reinforcement learning fine-tuning entropy dynamics exploration-exploitation policy optimization

论大语言模型强化微调中的熵动态 / On the Entropy Dynamics in Reinforcement Fine-Tuning of Large Language Models

1️⃣ 一句话总结

这篇论文建立了一个理论框架来分析大语言模型在强化微调过程中输出多样性的变化规律，并基于此提出了控制多样性的方法，以帮助模型在微调时更好地平衡探索新答案和利用已知知识。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.16912

arXiv 提交日期: 2025-12-18

llm reinforcement learning model training exploration-exploitation policy entropy spurious rewards rlvr reward misalignment

探索与利用：通过裁剪、熵和虚假奖励重新思考可验证奖励强化学习 / Exploration v.s. Exploitation: Rethinking RLVR through Clipping, Entropy, and Spurious Reward

1️⃣ 一句话总结

这篇论文通过分析虚假奖励和熵最小化这两种看似矛盾的方法，揭示了它们如何协同作用，在可验证奖励强化学习中提升大语言模型的推理能力，并解释了其背后的机制。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.14807

arXiv 提交日期: 2025-10-16

llm reinforcement learning model training policy optimization exploration-exploitation pass@k training dynamics reasoning benchmarks

SimKO：简单的Pass@K策略优化 / SimKO: Simple Pass@K Policy Optimization

1️⃣ 一句话总结

这篇论文提出了一种名为SimKO的新方法，通过非对称地调整模型在正确和错误答案上的概率分布，有效缓解了现有强化学习方法中过度关注单一答案而忽视其他可能性的问题，从而在数学和逻辑推理任务中显著提升了模型探索多种正确答案的能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2605.28109

1️⃣ 一句话总结

arXiv ID: 2603.14769

1️⃣ 一句话总结

arXiv ID: 2602.21887

1️⃣ 一句话总结

arXiv ID: 2602.17315

1️⃣ 一句话总结

arXiv ID: 2602.03392

1️⃣ 一句话总结

arXiv ID: 2512.16912

1️⃣ 一句话总结

arXiv ID: 2510.14807

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2605.28109 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.14769 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.21887 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.17315 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.03392 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.16912 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.14807 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2605.28109

arXiv ID: 2603.14769

arXiv ID: 2602.21887

arXiv ID: 2602.17315

arXiv ID: 2602.03392

arXiv ID: 2512.16912

arXiv ID: 2510.14807