arXiv最新AI论文速览速学

🔍

标签: #reinforcement learning ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 77 72小时内新更新论文 72h更新 177 最新: Semi-Markov Reinforcement Learning for City-Scale EV Ride-Hailing with Feasibility-Guaranteed Actions 05-03

arXiv ID: 2511.20347

arXiv 提交日期: 2025-11-25

llm reinforcement learning model training policy optimization training stability mixture-of-experts mathematical reasoning adaptive clipping

软自适应策略优化 / Soft Adaptive Policy Optimization

1️⃣ 一句话总结

这项研究提出了一种名为SAPO的新方法，通过智能调节学习信号来提升大语言模型训练的稳定性和效率，相比现有技术能更灵活地平衡学习效果与稳定性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.19990

arXiv 提交日期: 2025-11-25

computer vision model training multi-modal image refinement diffusion models reinforcement learning reference-guided generation detail preservation

OmniRefiner：基于强化学习的局部扩散模型图像精细化方法 / OmniRefiner: Reinforcement-Guided Local Diffusion Refinement

1️⃣ 一句话总结

这篇论文提出了一个名为OmniRefiner的两阶段图像精细化框架，它通过结合扩散模型和强化学习，有效解决了现有方法在根据参考图编辑生成图像时难以保留精细纹理和保持视觉一致性的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.19900

arXiv 提交日期: 2025-11-25

multi-modal agents model training vision-language reasoning self-evolving agents tool integration reinforcement learning autonomous evaluation

Agent0-VL：通过工具集成推理实现自我演化的视觉语言智能体 / Agent0-VL: Exploring Self-Evolving Agent for Tool-Integrated Vision-Language Reasoning

1️⃣ 一句话总结

Agent0-VL是一个创新的视觉语言模型框架，通过在单一模型中统一求解器和验证器两个协同角色，结合工具验证和强化学习，实现了无需外部奖励的闭环自我改进。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.07843

arXiv 提交日期: 2025-11-24

llm model training model evaluation parallel reasoning inference efficiency chain-of-thought reinforcement learning mathematical reasoning

ThreadWeaver：面向语言模型高效并行推理的自适应线程技术 / ThreadWeaver: Adaptive Threading for Efficient Parallel Reasoning in Language Models

1️⃣ 一句话总结

这篇论文提出了一种名为ThreadWeaver的新方法，它能让大语言模型在解决复杂问题时像多线程处理任务一样并行思考，从而在保持与顶尖顺序推理模型相同准确率的同时，显著提升了推理速度，且无需修改现有推理引擎。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.19661

arXiv 提交日期: 2025-11-24

agents multi-modal model training visual reasoning tool use policy optimization faithfulness evaluation reinforcement learning

CodeV：通过工具感知策略优化实现基于代码和图像的可靠视觉推理 / CodeV: Code with Images for Faithful Visual Reasoning via Tool-Aware Policy Optimization

1️⃣ 一句话总结

这篇论文提出了一个名为CodeV的视觉智能体和一个名为TAPO的训练框架，旨在通过直接监督AI使用视觉工具（如图像裁剪）的中间过程，解决现有视觉模型虽然能给出正确答案但实际推理过程不可靠的问题，从而构建更可信的视觉推理系统。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.17889

arXiv 提交日期: 2025-11-22

robotics vision-language-action agents quadruped robots chain-of-thought reinforcement learning embodied ai continuous control

MobileVLA-R1：强化移动机器人的视觉-语言-动作整合 / MobileVLA-R1: Reinforcing Vision-Language-Action for Mobile Robots

1️⃣ 一句话总结

这篇论文提出了一种名为MobileVLA-R1的新方法，通过结合思维链数据和强化学习，有效提升了四足机器人根据语言指令执行连续动作的稳定性和泛化能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.17490

arXiv 提交日期: 2025-11-21

multi-modal video model training video reasoning visual rumination reinforcement learning text-rich video multimodal reasoning

Video-R4：通过视觉反刍增强文本丰富视频的推理能力 / Video-R4: Reinforcing Text-Rich Video Reasoning with Visual Rumination

1️⃣ 一句话总结

这篇论文提出了一种名为Video-R4的视频推理模型，它通过模拟人类反复观察关键区域的行为，迭代地放大和重新分析视频帧中的文本细节，从而显著提升了在文本密集视频问答任务中的准确性和泛化能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.16671

arXiv 提交日期: 2025-11-20

multi-modal model training aigc text-to-video interleaved reasoning reinforcement learning visual generation multimodal interaction

边生成边思考：在视觉生成过程中交织文本推理 / Thinking-while-Generating: Interleaving Textual Reasoning throughout Visual Generation

1️⃣ 一句话总结

这篇论文提出了一个名为TwiG的创新框架，通过在视觉生成过程中实时交织文本推理，使模型能够边生成图像边进行动态思考，从而生成更具上下文意识和语义丰富性的视觉内容。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.16669

arXiv 提交日期: 2025-11-20

video generation multi-modal reinforcement learning next-event prediction video diffusion vision-language model instruction-conditioned generation procedural learning

视频作为答案：利用联合GRPO预测并生成下一视频事件 / Video-as-Answer: Predict and Generate Next Video Event with Joint-GRPO

1️⃣ 一句话总结

这篇论文提出了一种新方法，能够根据视频和问题直接生成展示下一事件的视频答案，而不是文字描述，使得教学和创意探索更加直观。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.16334

arXiv 提交日期: 2025-11-20

multi-modal model training model evaluation multimodal reasoning supervised fine-tuning reinforcement learning benchmark evaluation data curation

OpenMMReasoner：通过开放通用方法推动多模态推理前沿 / OpenMMReasoner: Pushing the Frontiers for Multimodal Reasoning with an Open and General Recipe

1️⃣ 一句话总结

这项研究提出了一个完全透明的两阶段训练方法，通过精心构建的数据集和强化学习显著提升了多模态推理能力，在多个基准测试中比现有领先模型性能提升11.6%。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2511.20347

1️⃣ 一句话总结

arXiv ID: 2511.19990

1️⃣ 一句话总结

arXiv ID: 2511.19900

1️⃣ 一句话总结

arXiv ID: 2512.07843

1️⃣ 一句话总结

arXiv ID: 2511.19661

1️⃣ 一句话总结

arXiv ID: 2511.17889

1️⃣ 一句话总结

arXiv ID: 2511.17490

1️⃣ 一句话总结

arXiv ID: 2511.16671

1️⃣ 一句话总结

arXiv ID: 2511.16669

1️⃣ 一句话总结

arXiv ID: 2511.16334

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2511.20347 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.19990 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.19900 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.07843 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.19661 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.17889 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.17490 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.16671 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.16669 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.16334 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2511.20347

arXiv ID: 2511.19990

arXiv ID: 2511.19900

arXiv ID: 2512.07843

arXiv ID: 2511.19661

arXiv ID: 2511.17889

arXiv ID: 2511.17490

arXiv ID: 2511.16671

arXiv ID: 2511.16669

arXiv ID: 2511.16334