arXiv最新AI论文速览速学

📄

2511.06411

🤖 系统

11-30 17:52

llm model training reinforcement learning

policy optimization soft-thinking gumbel-softmax reasoning gradient reparameterization

📄 论文总结

SofT-GRPO：通过Gumbel重参数化软思维策略优化超越离散令牌大语言模型强化学习 / SofT-GRPO: Surpassing Discrete-Token LLM Reinforcement Learning via Gumbel-Reparameterized Soft-Thinking Policy Optimization

1️⃣ 一句话总结

这项研究提出了一种名为SofT-GRPO的新算法，通过引入Gumbel噪声和重参数化技术，成功实现了对软思维推理模式大语言模型的强化学习训练，使其在多项测试中超越了传统的离散令牌强化学习方法。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2511.06307

🤖 系统

11-30 17:52

reinforcement learning natural language processing model training

competitive programming code generation rlvr data curation curriculum learning

📄 论文总结

竞争性编程代码生成中基于可验证奖励的强化学习数据管理最佳实践 / DRIVE: Data Curation Best Practices for Reinforcement Learning with Verifiable Reward in Competitive Code Generation

1️⃣ 一句话总结

这篇论文提出了一套针对竞争性编程代码生成任务的数据管理和强化学习训练方法，通过两阶段强化学习和课程设计，使模型在代码竞赛中达到了与顶尖系统相当的性能。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2511.06281

🤖 系统

11-30 17:51

reinforcement learning multi-modal model training

self-supervised learning video understanding multimodal llms pretext tasks benchmark evaluation

📄 论文总结

VideoSSR：视频自监督强化学习 / VideoSSR: Video Self-Supervised Reinforcement Learning

1️⃣ 一句话总结

本研究提出了一种名为VideoSSR的视频自监督强化学习框架，通过设计三种无需人工标注的自监督任务来生成高质量训练数据，有效提升了多模态大语言模型在多种视频理解任务上的性能，平均提升超过5%。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2511.05933

🤖 系统

11-30 17:51

llm reinforcement learning model evaluation

knowledge traversal hierarchical reasoning rlhf internal activations procedural skills

📄 论文总结

强化学习提升大语言模型对层级知识的遍历能力 / Reinforcement Learning Improves Traversal of Hierarchical Knowledge in LLMs

1️⃣ 一句话总结

这项研究发现强化学习并非像传统观点认为的那样会损害语言模型的记忆知识，而是通过提升模型在已有知识层级中搜索和导航的‘程序性技能’，使其在需要遍历结构化知识（如医疗代码）的回忆任务中表现更优。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2511.05705

🤖 系统

11-30 17:51

multi-modal model training model evaluation

visual reasoning data synthesis reinforcement learning vision-language models benchmark evaluation

📄 论文总结

长链基础思维：大规模提炼组合式视觉推理链条 / Long Grounded Thoughts: Distilling Compositional Visual Reasoning Chains at Scale

1️⃣ 一句话总结

这篇论文提出了一个大规模生成高质量视觉推理数据集的新方法，通过两阶段合成框架创造出包含复杂推理链条的百万级问题，实验证明基于该数据训练的模型在多项视觉及跨模态推理任务上超越了现有最优模型。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2511.05489

🤖 系统

11-30 17:51

video reinforcement learning model training

temporal search long-form video self-verification video reasoning benchmark evaluation

📄 论文总结

TimeSearch-R：通过自验证强化学习实现长视频理解的自适应时序搜索 / TimeSearch-R: Adaptive Temporal Search for Long-Form Video Understanding via Self-Verification Reinforcement Learning

1️⃣ 一句话总结

这篇论文提出了一种名为TimeSearch-R的新方法，它通过结合自验证机制的强化学习来智能搜索长视频中的关键帧，从而更完整、准确地理解视频内容，并在多个基准测试中取得了领先性能。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2511.04460

🤖 系统

11-30 17:51

multi-modal agents model training

interactive reasoning vision-language models reinforcement learning data synthesis benchmark evaluation

📄 论文总结

V-Thinker：基于图像的交互式思考 / V-Thinker: Interactive Thinking with Images

1️⃣ 一句话总结

这篇论文提出了一个名为V-Thinker的多模态AI助手，它通过自动生成数据和强化学习训练，使模型能够与图像进行深度交互并完成复杂的视觉推理任务，在多项测试中超越了现有方法。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2511.03996

🤖 系统

11-30 17:50

robotics agents reinforcement learning

humanoid robots vision-driven control soccer skills motion priors perception-action loop

📄 论文总结

人形机器人视觉驱动反应式足球技能学习 / Learning Vision-Driven Reactive Soccer Skills for Humanoid Robots

1️⃣ 一句话总结

这项研究开发了一种将视觉感知与运动控制直接结合的统一强化学习方法，使人形机器人能够在动态环境中实时做出连贯而稳健的足球动作响应。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2511.03773

🤖 系统

11-30 17:50

reinforcement learning agents model training

experience synthesis rl training sim-to-real curriculum learning reasoning model

📄 论文总结

通过经验合成扩展智能体学习 / Scaling Agent Learning via Experience Synthesis

1️⃣ 一句话总结

这篇论文提出了一个名为DreamGym的框架，它通过合成多样化的虚拟经验数据来高效训练强化学习智能体，从而克服了传统方法依赖真实环境交互成本高、任务单一等难题，并在多种测试中显著提升了训练效果和实际应用性能。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2511.02712

🤖 系统

11-30 17:49

multi-modal model training natural language processing

video emotion analysis affective reasoning instruction tuning reinforcement learning video foundation models

📄 论文总结

VidEmo：面向情感中心视频基础模型的情感树推理 / VidEmo: Affective-Tree Reasoning for Emotion-Centric Video Foundation Models

1️⃣ 一句话总结

这项研究提出了一种名为VidEmo的视频情感基础模型，通过分阶段的课程情感学习和情感树强化学习，结合一个包含210万条指令样本的精细数据集，有效解决了视频中复杂动态情感理解与推理的难题，并在多个任务上取得了领先性能。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📚 arXiv最新AI论文速览速学

菜单

提交新论文

2511.06411

📄 论文总结

1️⃣ 一句话总结

2511.06307

📄 论文总结

1️⃣ 一句话总结

2511.06281

📄 论文总结

1️⃣ 一句话总结

2511.05933

📄 论文总结

1️⃣ 一句话总结

2511.05705

📄 论文总结

1️⃣ 一句话总结

2511.05489

📄 论文总结

1️⃣ 一句话总结

2511.04460

📄 论文总结

1️⃣ 一句话总结

2511.03996

📄 论文总结

1️⃣ 一句话总结

2511.03773

📄 论文总结

1️⃣ 一句话总结

2511.02712

📄 论文总结

1️⃣ 一句话总结

密码管理

设置密码

修改密码

移除密码

菜单

提交新论文

需要登录

2511.06411 📝

📄 论文总结

1️⃣ 一句话总结

2511.06307 📝

📄 论文总结

1️⃣ 一句话总结

2511.06281 📝

📄 论文总结

1️⃣ 一句话总结

2511.05933 📝

📄 论文总结

1️⃣ 一句话总结

2511.05705 📝

📄 论文总结

1️⃣ 一句话总结

2511.05489 📝

📄 论文总结

1️⃣ 一句话总结

2511.04460 📝

📄 论文总结

1️⃣ 一句话总结

2511.03996 📝

📄 论文总结

1️⃣ 一句话总结

2511.03773 📝

📄 论文总结

1️⃣ 一句话总结

2511.02712 📝

📄 论文总结

1️⃣ 一句话总结

获取最新论文摘要

2511.06411

2511.06307

2511.06281

2511.05933

2511.05705

2511.05489

2511.04460

2511.03996

2511.03773

2511.02712