arXiv最新AI论文速览速学

📄

2512.04072

🤖 系统

12-05 15:08

llm model training agents

self-distillation cognitive skills reinforcement learning supervised fine-tuning reasoning

SkillFactory：用于学习认知行为的自蒸馏方法 / SkillFactory: Self-Distillation For Learning Cognitive Behaviors

1️⃣ 一句话总结

这篇论文提出了一种名为SkillFactory的自蒸馏方法，它通过重新组织模型自身生成的样本进行监督微调，使模型在强化学习前初步掌握验证、回溯等认知技能，从而在后续强化学习中更稳健地运用这些技能并提升在困难任务上的泛化能力。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2512.03794

🤖 系统

12-05 15:04

multi-modal model training agents

vision-language models efficient inference reinforcement learning adaptive vision visual token reduction

AdaptVision：通过自适应视觉采集实现高效视觉语言模型 / AdaptVision: Efficient Vision-Language Models via Adaptive Visual Acquisition

1️⃣ 一句话总结

这篇论文提出了一种名为AdaptVision的高效视觉语言模型新方法，它模仿人类主动视觉机制，能根据任务需求自适应地决定需要处理多少图像信息，从而在保证回答准确性的同时大幅减少计算开销。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2512.04082

🤖 系统

12-05 15:03

multi-modal aigc systems

graphic design automation layout reasoning controllable editing large multimodal models reinforcement learning

PosterCopilot：面向专业平面设计的布局推理与可控编辑 / PosterCopilot: Toward Layout Reasoning and Controllable Editing for Professional Graphic Design

1️⃣ 一句话总结

这篇论文提出了一个名为PosterCopilot的智能设计框架，它通过创新的训练方法让大模型学会精确的布局规划和审美判断，并支持对设计元素进行分层、迭代的精细化编辑，从而能自动生成几何准确且美观的专业海报。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2512.04797

🤖 系统

12-05 14:58

agents multi-modal reinforcement learning

embodied ai generalist agent 3d virtual worlds open-ended learning instruction following

SIMA 2：适用于虚拟世界的通用具身智能体 / SIMA 2: A Generalist Embodied Agent for Virtual Worlds

1️⃣ 一句话总结

这篇论文介绍了一个名为SIMA 2的通用智能体，它能在各种3D虚拟世界中理解、推理并执行复杂任务，不仅能像人类一样与用户对话协作，还能通过自我学习掌握新技能，向创建能持续学习的通用人工智能迈出了重要一步。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2512.04220

🤖 系统

12-05 14:46

llm reinforcement learning agents

policy optimization training collapse tool-integrated rl likelihood regularization multi-step reasoning

论搜索R1中GRPO的崩溃：懒惰似然位移死亡螺旋 / On GRPO Collapse in Search-R1: The Lazy Likelihood-Displacement Death Spiral

1️⃣ 一句话总结

这篇论文发现，在工具集成强化学习中，一种名为‘懒惰似然位移’的现象会导致模型训练崩溃，并提出了一个轻量级的正则化方法来解决这个问题，从而显著提升了模型性能。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2512.05111

🤖 系统

12-05 14:37

agents model evaluation multi-modal

reward modeling tool use visual reasoning reinforcement learning benchmark

ARM-Thinker：通过智能工具使用与视觉推理增强多模态生成奖励模型 / ARM-Thinker: Reinforcing Multimodal Generative Reward Models with Agentic Tool Use and Visual Reasoning

1️⃣ 一句话总结

这篇论文提出了一个名为ARM-Thinker的新型智能奖励模型，它能够自主调用外部工具来验证视觉细节和多页文档证据，从而显著提升了多模态任务中奖励判断的准确性和可解释性。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2512.01988

🤖 系统

12-04 15:09

agents computer vision reinforcement learning

visual reasoning perception policy object detection spatial reasoning multi-modal learning

Artemis：用于感知策略学习的结构化视觉推理框架 / Artemis: Structured Visual Reasoning for Perception Policy Learning

1️⃣ 一句话总结

这篇论文提出了一个名为Artemis的新框架，它通过使用结构化的视觉对象框作为中间推理步骤，解决了传统语言推理在视觉感知任务中效果不佳的问题，从而显著提升了机器在理解和处理视觉信息时的准确性和泛化能力。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2511.19661

🤖 系统

12-04 15:05

agents multi-modal model training

visual reasoning tool use policy optimization faithfulness evaluation reinforcement learning

CodeV：通过工具感知策略优化实现基于代码和图像的可靠视觉推理 / CodeV: Code with Images for Faithful Visual Reasoning via Tool-Aware Policy Optimization

1️⃣ 一句话总结

这篇论文提出了一个名为CodeV的视觉智能体和一个名为TAPO的训练框架，旨在通过直接监督AI使用视觉工具（如图像裁剪）的中间过程，解决现有视觉模型虽然能给出正确答案但实际推理过程不可靠的问题，从而构建更可信的视觉推理系统。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2512.02551

🤖 系统

12-04 15:03

llm reinforcement learning systems

matrix multiplication cuda optimization automated kernel tuning hgemm performance optimization

CUDA-L2：通过强化学习超越cuBLAS的矩阵乘法性能 / CUDA-L2: Surpassing cuBLAS Performance for Matrix Multiplication through Reinforcement Learning

1️⃣ 一句话总结

这篇论文提出了一个名为CUDA-L2的系统，它利用大语言模型和强化学习来自动优化GPU上的矩阵乘法计算核心，其性能超越了包括英伟达官方库在内的现有最佳方案，证明了AI自动化优化可以突破人类手动优化的性能极限。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2511.21689

🤖 系统

12-04 14:45

llm agents model training

tool orchestration reinforcement learning efficient inference tool-augmented reasoning model coordination

工具交响乐：通过高效的模型与工具编排提升智能 / ToolOrchestra: Elevating Intelligence via Efficient Model and Tool Orchestration

1️⃣ 一句话总结

这篇论文提出了一种名为ToolOrchestra的方法，通过训练一个小型的‘指挥家’模型来协调调用各种智能工具，从而在解决复杂任务时，以更低的成本实现了比大型语言模型（如GPT-5）更高的性能和效率，并且能更好地满足用户偏好。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📚 arXiv最新AI论文速览速学

菜单

提交新论文

2512.04072

1️⃣ 一句话总结

2512.03794

1️⃣ 一句话总结

2512.04082

1️⃣ 一句话总结

2512.04797

1️⃣ 一句话总结

2512.04220

1️⃣ 一句话总结

2512.05111

1️⃣ 一句话总结

2512.01988

1️⃣ 一句话总结

2511.19661

1️⃣ 一句话总结

2512.02551

1️⃣ 一句话总结

2511.21689

1️⃣ 一句话总结

密码管理

设置密码

修改密码

移除密码

菜单

提交新论文

需要登录

2512.04072 📝

1️⃣ 一句话总结

2512.03794 📝

1️⃣ 一句话总结

2512.04082 📝

1️⃣ 一句话总结

2512.04797 📝

1️⃣ 一句话总结

2512.04220 📝

1️⃣ 一句话总结

2512.05111 📝

1️⃣ 一句话总结

2512.01988 📝

1️⃣ 一句话总结

2511.19661 📝

1️⃣ 一句话总结

2512.02551 📝

1️⃣ 一句话总结

2511.21689 📝

1️⃣ 一句话总结

获取最新论文摘要

2512.04072

2512.03794

2512.04082

2512.04797

2512.04220

2512.05111

2512.01988

2511.19661

2512.02551

2511.21689