arXiv最新AI论文速览速学

🔍

标签: #online rl ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 98 72小时内新更新论文 72h更新 100 最新: Long Live The Balance: Information Bottleneck Driven Tree-based Policy Optimization 06-01

arXiv ID: 2605.28109

arXiv 提交日期: 2026-05-27

llm reinforcement learning information bottleneck exploration-exploitation tree search online rl reasoning

长期平衡：信息瓶颈驱动的树形策略优化 / Long Live The Balance: Information Bottleneck Driven Tree-based Policy Optimization

1️⃣ 一句话总结

本文针对大语言模型在线强化学习中探索与利用不平衡的问题，提出了一种基于信息瓶颈理论的新指标IB-Score来量化平衡程度，并设计了一种树形采样策略，在相同令牌预算下获得更多训练轨迹，从而显著提升模型在复杂推理任务上的性能表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.05832

arXiv 提交日期: 2026-02-05

agents reinforcement learning systems gui agents experience memory online rl hierarchical memory cross-task transfer

UI-Mem：面向移动GUI智能体在线强化学习的自演进经验记忆框架 / UI-Mem: Self-Evolving Experience Memory for Online Reinforcement Learning in Mobile GUI Agents

1️⃣ 一句话总结

这篇论文提出了一个名为UI-Mem的新框架，它通过构建一个能够存储和跨任务迁移高层次操作流程、子任务技能及失败模式的自演进经验记忆库，有效解决了移动图形界面智能体在在线强化学习中面临的长期任务信用分配困难和错误重复发生的问题，从而显著提升了智能体的学习效率和泛化能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.02581

arXiv 提交日期: 2025-12-02

reinforcement learning model training agents generative policies online rl continuous control diffusion flow matching

GoRL：一种算法无关的、使用生成策略的在线强化学习框架 / GoRL: An Algorithm-Agnostic Framework for Online Reinforcement Learning with Generative Policies

1️⃣ 一句话总结

这篇论文提出了一个名为GoRL的新框架，它通过将策略的优化过程与动作生成过程分离，巧妙地解决了强化学习中策略稳定性与表达力之间的固有矛盾，从而在复杂控制任务中实现了比传统高斯策略和现有生成策略更优且更稳定的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2605.28109

1️⃣ 一句话总结

arXiv ID: 2602.05832

1️⃣ 一句话总结

arXiv ID: 2512.02581

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2605.28109 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.05832 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.02581 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2605.28109

arXiv ID: 2602.05832

arXiv ID: 2512.02581