arXiv最新AI论文速览速学

🔍

标签: #rl training ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 98 72小时内新更新论文 72h更新 100 最新: Learn Hard Problems During RL with Reference Guided Fine-tuning 03-08

arXiv ID: 2603.01223

arXiv 提交日期: 2026-03-01

reinforcement learning llm model training mathematical reasoning reward sparsity fine-tuning reference-guided learning rl training

通过参考引导微调在强化学习中学习难题 / Learn Hard Problems During RL with Reference Guided Fine-tuning

1️⃣ 一句话总结

这篇论文提出了一种名为ReGFT的新方法，它巧妙地利用人类编写的参考答案来引导大语言模型自己生成解题思路，从而解决了数学推理强化学习中因奖励稀疏而难以训练的问题，最终显著提升了模型在复杂数学问题上的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.13874

arXiv 提交日期: 2025-12-15

agents video reinforcement learning video reasoning multi-turn agents rl training long video benchmark

SAGE：利用强化学习训练智能任意时长代理进行长视频推理 / SAGE: Training Smart Any-Horizon Agents for Long Video Reasoning with Reinforcement Learning

1️⃣ 一句话总结

这篇论文提出了一种名为SAGE的智能视频理解系统，它模仿人类灵活观看视频的方式，能够根据任务难度自动决定是快速浏览长视频还是仔细观看短视频片段，并通过创新的合成数据生成和强化学习方法，显著提升了处理超长视频内容的理解能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.03773

arXiv 提交日期: 2025-11-05

reinforcement learning agents model training experience synthesis rl training sim-to-real curriculum learning reasoning model

通过经验合成扩展智能体学习 / Scaling Agent Learning via Experience Synthesis

1️⃣ 一句话总结

这篇论文提出了一个名为DreamGym的框架，它通过合成多样化的虚拟经验数据来高效训练强化学习智能体，从而克服了传统方法依赖真实环境交互成本高、任务单一等难题，并在多种测试中显著提升了训练效果和实际应用性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.11696

arXiv 提交日期: 2025-10-13

llm model training reinforcement learning quantization rl training memory efficiency low-rank adaptation exploration enhancement

超越效率：面向大语言模型的量化增强强化学习 / QeRL: Beyond Efficiency -- Quantization-enhanced Reinforcement Learning for LLMs

1️⃣ 一句话总结

本文提出了一种名为QeRL的量化增强强化学习框架，它不仅通过降低内存占用和加速训练过程来提升大语言模型强化学习的效率，还巧妙地利用量化噪声增强策略探索能力，从而在数学推理等任务上达到与全参数微调相当甚至更好的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.19736

arXiv 提交日期: 2025-09-24

reinforcement learning agents model training user-centric agents reward shaping multi-turn interaction simulated users rl training

UserRL：通过强化学习训练交互式用户中心智能体 / UserRL: Training Interactive User-Centric Agent via Reinforcement Learning

1️⃣ 一句话总结

这篇论文提出了一个名为UserRL的框架，通过强化学习和模拟用户环境来训练能更好地与用户交互的AI助手，并发现奖励机制设计和用户模拟器的选择对提升交互效果至关重要。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.01223

1️⃣ 一句话总结

arXiv ID: 2512.13874

1️⃣ 一句话总结

arXiv ID: 2511.03773

1️⃣ 一句话总结

arXiv ID: 2510.11696

1️⃣ 一句话总结

arXiv ID: 2509.19736

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.01223 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.13874 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.03773 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.11696 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.19736 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.01223

arXiv ID: 2512.13874

arXiv ID: 2511.03773

arXiv ID: 2510.11696

arXiv ID: 2509.19736