arXiv最新AI论文速览速学

📄

2512.05111

🤖 系统

12-05 14:37

agents model evaluation multi-modal

reward modeling tool use visual reasoning reinforcement learning benchmark

ARM-Thinker：通过智能工具使用与视觉推理增强多模态生成奖励模型 / ARM-Thinker: Reinforcing Multimodal Generative Reward Models with Agentic Tool Use and Visual Reasoning

1️⃣ 一句话总结

这篇论文提出了一个名为ARM-Thinker的新型智能奖励模型，它能够自主调用外部工具来验证视觉细节和多页文档证据，从而显著提升了多模态任务中奖励判断的准确性和可解释性。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2512.05112

🤖 系统

12-05 14:35

multi-modal model training model evaluation

text-to-image generation chain-of-thought visual reasoning rare concept generation classifier-free guidance

DraCo：将草稿作为思维链用于文本到图像预览与稀有概念生成 / DraCo: Draft as CoT for Text-to-Image Preview and Rare Concept Generation

1️⃣ 一句话总结

这篇论文提出了一种名为DraCo的新方法，它通过先生成低分辨率草稿图像进行预览和视觉规划，再利用模型自身能力进行语义验证和选择性修正，从而显著提升了多模态大模型在文本生成图像任务中的规划准确性和生成稀有概念组合的能力。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2512.01988

🤖 系统

12-04 15:09

agents computer vision reinforcement learning

visual reasoning perception policy object detection spatial reasoning multi-modal learning

Artemis：用于感知策略学习的结构化视觉推理框架 / Artemis: Structured Visual Reasoning for Perception Policy Learning

1️⃣ 一句话总结

这篇论文提出了一个名为Artemis的新框架，它通过使用结构化的视觉对象框作为中间推理步骤，解决了传统语言推理在视觉感知任务中效果不佳的问题，从而显著提升了机器在理解和处理视觉信息时的准确性和泛化能力。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2511.19661

🤖 系统

12-04 15:05

agents multi-modal model training

visual reasoning tool use policy optimization faithfulness evaluation reinforcement learning

CodeV：通过工具感知策略优化实现基于代码和图像的可靠视觉推理 / CodeV: Code with Images for Faithful Visual Reasoning via Tool-Aware Policy Optimization

1️⃣ 一句话总结

这篇论文提出了一个名为CodeV的视觉智能体和一个名为TAPO的训练框架，旨在通过直接监督AI使用视觉工具（如图像裁剪）的中间过程，解决现有视觉模型虽然能给出正确答案但实际推理过程不可靠的问题，从而构建更可信的视觉推理系统。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2512.03043

🤖 系统

12-04 14:28

multi-modal model training agents

visual reasoning multimodal llm reinforcement learning unified model video understanding

OneThinker：面向图像与视频的一体化推理模型 / OneThinker: All-in-one Reasoning Model for Image and Video

1️⃣ 一句话总结

这篇论文提出了一个名为OneThinker的统一模型，它能够同时处理图像和视频的多种核心视觉理解任务（如问答、描述、定位和分割），并通过创新的训练方法解决了多任务学习中的奖励不平衡问题，在多个基准测试上表现出色，向通用的多模态推理专家迈进了一步。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2511.22586

🤖 系统

12-03 15:04

natural language processing multi-modal model training

chain-of-thought vision-language models visual reasoning instruction tuning generalization

重新审视视觉推理泛化中冗长思维链的必要性 / Revisiting the Necessity of Lengthy Chain-of-Thought in Vision-centric Reasoning Generalization

1️⃣ 一句话总结

这项研究发现，在训练视觉语言模型进行视觉推理时，使用简短且仅包含关键定位步骤的思维链数据，比使用冗长或包含图像操作的复杂思维链，能带来更好的泛化能力和最终性能。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2511.21750

🤖 系统

12-01 14:45

multi-modal model evaluation benchmark

multimodal llms structured output visual reasoning schema compliance evaluation benchmark

SO-Bench：多模态大语言模型的结构化输出评估 / SO-Bench: A Structural Output Evaluation of Multimodal LLMs

1️⃣ 一句话总结

这篇论文提出了一个名为SO-Bench的新基准，专门用于评估多模态大语言模型根据视觉信息生成符合预定数据格式（如JSON）的结构化输出的能力，发现现有模型在此方面仍有不足，并通过训练实验展示了改进的可能性。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2511.21395

🤖 系统

11-30 19:25

multi-modal model training llm

visual reasoning latent space reinforcement learning multimodal llms knowledge distillation

📄 论文总结

Monet：超越图像和语言的潜在视觉空间推理 / Monet: Reasoning in Latent Visual Space Beyond Images and Language

1️⃣ 一句话总结

这篇论文提出了一个名为Monet的训练框架，通过让多模态大语言模型直接在潜在视觉空间中生成连续的视觉思维嵌入来进行推理，并针对训练挑战设计了专门的优化方法，显著提升了模型在真实世界感知和抽象视觉推理任务上的性能。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2511.20814

🤖 系统

11-30 19:01

computer vision model evaluation benchmark

visual reasoning synthetic environment spatial reasoning reinforcement learning multimodal evaluation

📄 论文总结

SPHINX：一种用于视觉感知与推理的合成环境 / SPHINX: A Synthetic Environment for Visual Perception and Reasoning

1️⃣ 一句话总结

这篇论文提出了一个名为SPHINX的合成视觉推理测试平台，通过生成包含对称检测、空间推理等25类任务的谜题来评估模型能力，发现当前最先进模型表现远低于人类水平，并验证了基于可验证奖励的强化学习方法能有效提升模型在多模态推理任务上的准确率。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2511.21678

🤖 系统

11-30 18:08

agents multi-modal model training

multimodal memory error correction lifelong learning visual reasoning semantic schemas

📄 论文总结

具有生长与精炼多模态语义记忆的自主学习者 / Agentic Learner with Grow-and-Refine Multimodal Semantic Memory

1️⃣ 一句话总结

这篇论文提出了一个名为ViLoMem的双流记忆框架，通过分别记录视觉分心模式和逻辑推理错误，帮助多模态大模型从成功和失败的经验中学习，从而在多种任务中持续提升准确率并减少重复错误。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📚 arXiv最新AI论文速览速学

菜单

提交新论文

2512.05111

1️⃣ 一句话总结

2512.05112

1️⃣ 一句话总结

2512.01988

1️⃣ 一句话总结

2511.19661

1️⃣ 一句话总结

2512.03043

1️⃣ 一句话总结

2511.22586

1️⃣ 一句话总结

2511.21750

1️⃣ 一句话总结

2511.21395

📄 论文总结

1️⃣ 一句话总结

2511.20814

📄 论文总结

1️⃣ 一句话总结

2511.21678

📄 论文总结

1️⃣ 一句话总结

密码管理

设置密码

修改密码

移除密码

菜单

提交新论文

需要登录

2512.05111 📝

1️⃣ 一句话总结

2512.05112 📝

1️⃣ 一句话总结

2512.01988 📝

1️⃣ 一句话总结

2511.19661 📝

1️⃣ 一句话总结

2512.03043 📝

1️⃣ 一句话总结

2511.22586 📝

1️⃣ 一句话总结

2511.21750 📝

1️⃣ 一句话总结

2511.21395 📝

📄 论文总结

1️⃣ 一句话总结

2511.20814 📝

📄 论文总结

1️⃣ 一句话总结

2511.21678 📝

📄 论文总结

1️⃣ 一句话总结

获取最新论文摘要

2512.05111

2512.05112

2512.01988

2511.19661

2512.03043

2511.22586

2511.21750

2511.21395

2511.20814

2511.21678