arXiv最新AI论文速览速学

📄

2512.04220

🤖 系统

12-05 14:46

llm reinforcement learning agents

policy optimization training collapse tool-integrated rl likelihood regularization multi-step reasoning

论搜索R1中GRPO的崩溃：懒惰似然位移死亡螺旋 / On GRPO Collapse in Search-R1: The Lazy Likelihood-Displacement Death Spiral

1️⃣ 一句话总结

这篇论文发现，在工具集成强化学习中，一种名为‘懒惰似然位移’的现象会导致模型训练崩溃，并提出了一个轻量级的正则化方法来解决这个问题，从而显著提升了模型性能。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2511.19661

🤖 系统

12-04 15:05

agents multi-modal model training

visual reasoning tool use policy optimization faithfulness evaluation reinforcement learning

CodeV：通过工具感知策略优化实现基于代码和图像的可靠视觉推理 / CodeV: Code with Images for Faithful Visual Reasoning via Tool-Aware Policy Optimization

1️⃣ 一句话总结

这篇论文提出了一个名为CodeV的视觉智能体和一个名为TAPO的训练框架，旨在通过直接监督AI使用视觉工具（如图像裁剪）的中间过程，解决现有视觉模型虽然能给出正确答案但实际推理过程不可靠的问题，从而构建更可信的视觉推理系统。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2512.02807

🤖 系统

12-04 14:22

llm model training theory

alignment reinforcement learning intrinsic reward representation geometry policy optimization

SR-GRPO：将稳定秩作为大语言模型对齐的内在几何奖励 / SR-GRPO: Stable Rank as an Intrinsic Geometric Reward for Large Language Model Alignment

1️⃣ 一句话总结

这篇论文提出了一种名为‘稳定秩’的新方法，它通过分析模型内部表示的空间结构来自动评估输出质量，并以此作为奖励信号来优化大语言模型，无需依赖人工标注或外部奖励模型，就能有效提升模型在数学推理等任务上的表现。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2512.01763

🤖 系统

12-02 15:09

agents systems model training

gui agents history context policy optimization computational efficiency sequential navigation

HiconAgent：面向图形界面智能体的历史上下文感知策略优化 / HiconAgent: History Context-aware Policy Optimization for GUI Agents

1️⃣ 一句话总结

这篇论文提出了一种名为HiconAgent的智能体，它通过一种创新的历史上下文感知优化方法，让图形界面操作机器人既能有效利用过去的操作经验来提升任务成功率，又能大幅减少计算负担，实现了性能与效率的双重提升。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2511.20347

🤖 系统

11-30 20:01

llm reinforcement learning model training

policy optimization training stability mixture-of-experts mathematical reasoning adaptive clipping

📄 论文总结

软自适应策略优化 / Soft Adaptive Policy Optimization

1️⃣ 一句话总结

这项研究提出了一种名为SAPO的新方法，通过智能调节学习信号来提升大语言模型训练的稳定性和效率，相比现有技术能更灵活地平衡学习效果与稳定性。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2511.20647

🤖 系统

11-30 19:38

video generation aigc model training

diverse generation determinantal point processes policy optimization text-to-video benchmark evaluation

📄 论文总结

基于行列式点过程引导策略优化的多样化视频生成 / Diverse Video Generation with Determinantal Point Process-Guided Policy Optimization

1️⃣ 一句话总结

这项研究提出了一种名为DPP-GRPO的新方法，通过结合行列式点过程和群体相对策略优化技术，有效提升了文本生成视频模型的输出多样性，确保同一文本提示能生成多个在视觉外观、镜头运动和场景结构上各不相同的高质量视频。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2511.15661

🤖 系统

11-30 17:55

multi-modal model training reinforcement learning

vision-language models self-evolving autonomous improvement policy optimization visual reasoning

📄 论文总结

VisPlay：从图像中自我演化的视觉语言模型 / VisPlay: Self-Evolving Vision-Language Models from Images

1️⃣ 一句话总结

这篇论文提出了一个名为VisPlay的自进化强化学习框架，让视觉语言模型能够利用大量未标注图像数据，通过让模型扮演提问者和回答者两个角色相互训练，自主提升视觉推理能力，并在多个基准测试中显著提高了性能。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2511.15605

🤖 系统

11-30 17:55

robotics reinforcement learning multi-modal

vision-language-action policy optimization self-referential learning latent representations robot manipulation

📄 论文总结

自参考策略优化：面向视觉-语言-动作模型 / SRPO: Self-Referential Policy Optimization for Vision-Language-Action Models

1️⃣ 一句话总结

这项研究提出了一种自参考策略优化方法，通过利用模型自身成功轨迹作为参考来为失败尝试打分，无需额外演示或人工设计奖励，显著提升了机器人操作任务的训练效率和性能。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2511.09515

🤖 系统

11-30 17:53

robotics multi-modal reinforcement learning

world models vision-language-action policy optimization sample efficiency robot manipulation

📄 论文总结

WMPO：基于世界模型的视觉-语言-动作模型策略优化 / WMPO: World Model-based Policy Optimization for Vision-Language-Action Models

1️⃣ 一句话总结

这项研究提出了一种名为WMPO的新方法，让机器人能够通过内部模拟学习改进自身动作，无需在真实环境中反复试错，从而更高效地掌握复杂操作技能并具备自我纠错能力。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2511.06411

🤖 系统

11-30 17:52

llm model training reinforcement learning

policy optimization soft-thinking gumbel-softmax reasoning gradient reparameterization

📄 论文总结

SofT-GRPO：通过Gumbel重参数化软思维策略优化超越离散令牌大语言模型强化学习 / SofT-GRPO: Surpassing Discrete-Token LLM Reinforcement Learning via Gumbel-Reparameterized Soft-Thinking Policy Optimization

1️⃣ 一句话总结

这项研究提出了一种名为SofT-GRPO的新算法，通过引入Gumbel噪声和重参数化技术，成功实现了对软思维推理模式大语言模型的强化学习训练，使其在多项测试中超越了传统的离散令牌强化学习方法。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📚 arXiv最新AI论文速览速学

菜单

提交新论文

2512.04220

1️⃣ 一句话总结

2511.19661

1️⃣ 一句话总结

2512.02807

1️⃣ 一句话总结

2512.01763

1️⃣ 一句话总结

2511.20347

📄 论文总结

1️⃣ 一句话总结

2511.20647

📄 论文总结

1️⃣ 一句话总结

2511.15661

📄 论文总结

1️⃣ 一句话总结

2511.15605

📄 论文总结

1️⃣ 一句话总结

2511.09515

📄 论文总结

1️⃣ 一句话总结

2511.06411

📄 论文总结

1️⃣ 一句话总结

密码管理

设置密码

修改密码

移除密码

菜单

提交新论文

需要登录

2512.04220 📝

1️⃣ 一句话总结

2511.19661 📝

1️⃣ 一句话总结

2512.02807 📝

1️⃣ 一句话总结

2512.01763 📝

1️⃣ 一句话总结

2511.20347 📝

📄 论文总结

1️⃣ 一句话总结

2511.20647 📝

📄 论文总结

1️⃣ 一句话总结

2511.15661 📝

📄 论文总结

1️⃣ 一句话总结

2511.15605 📝

📄 论文总结

1️⃣ 一句话总结

2511.09515 📝

📄 论文总结

1️⃣ 一句话总结

2511.06411 📝

📄 论文总结

1️⃣ 一句话总结

获取最新论文摘要

2512.04220

2511.19661

2512.02807

2512.01763

2511.20347

2511.20647

2511.15661

2511.15605

2511.09515

2511.06411