arXiv最新AI论文速览速学

🔍

标签: #multimodal reasoning ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 119 72小时内新更新论文 72h更新 124 最新: MM-CondChain: A Programmatically Verified Benchmark for Visually Grounded Deep Compositional Reasoning 03-16

arXiv ID: 2603.12266

arXiv 提交日期: 2026-03-12

multi-modal benchmark model evaluation multimodal reasoning compositional reasoning visual workflows verifiable evaluation mllm benchmarking

MM-CondChain：一个用于视觉基础深度组合推理的、可通过程序验证的基准 / MM-CondChain: A Programmatically Verified Benchmark for Visually Grounded Deep Compositional Reasoning

1️⃣ 一句话总结

这篇论文提出了一个名为MM-CondChain的新基准测试，专门用来评估多模态大语言模型在理解复杂视觉场景后，进行多步骤、有条件分支的深度逻辑推理的能力，结果发现当前最先进的模型在这项任务上仍有很大挑战。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.09206

arXiv 提交日期: 2026-03-10

multi-modal model training agents vision language models self-evolution reinforcement learning zero-shot learning multimodal reasoning

MM-Zero：从零数据出发的自进化多模型视觉语言模型 / MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data

1️⃣ 一句话总结

这篇论文提出了一个名为MM-Zero的新框架，它能让视觉语言模型在没有初始图像数据的情况下，通过让一个基础模型扮演提议者、编码者和解答者三个不同角色进行自我协作与进化，从而显著提升其在多模态推理任务上的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.02024

arXiv 提交日期: 2026-03-02

multi-modal benchmark model evaluation multimodal reasoning multi-image understanding real-world scenarios reasoning types evaluation benchmark

MMR-Life：为多模态多图像推理拼凑真实生活场景 / MMR-Life: Piecing Together Real-life Scenes for Multimodal Multi-image Reasoning

1️⃣ 一句话总结

这篇论文提出了一个名为MMR-Life的新基准测试，旨在全面评估多模态大语言模型在真实生活场景中整合多张图片并进行七种不同类型推理的能力，结果显示当前最先进的模型在此任务上仍面临巨大挑战。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.01990

arXiv 提交日期: 2026-03-02

llm agents benchmark personalized memory multimodal reasoning referential qa long-term memory retrieval-augmented generation

关于我：长期个性化指代记忆问答 / According to Me: Long-Term Personalized Referential Memory QA

1️⃣ 一句话总结

这篇论文提出了首个多模态、多来源的个性化长期记忆问答基准ATM-Bench，并设计了一种结构化记忆表示方法，以帮助AI助手更好地理解和回答基于用户个人生活经历的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.21497

arXiv 提交日期: 2026-02-25

llm multi-modal model evaluation multimodal reasoning visual hallucination chain-of-thought training-free benchmark

看见它，说出它，搞定它：一种用于大型视觉语言模型视觉基础多模态推理的免训练迭代框架 / See It, Say It, Sorted: An Iterative Training-Free Framework for Visually-Grounded Multimodal Reasoning in LVLMs

1️⃣ 一句话总结

这篇论文提出了一种无需额外训练、即插即用的轻量级方法，通过让大型视觉语言模型在推理的每一步都严格依据图像证据来生成回答，有效解决了多模态推理中视觉幻觉传播导致答案错误的问题，显著提升了多个基准测试的准确率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.17665

arXiv 提交日期: 2026-02-19

agents multi-modal systems geospatial agents remote sensing tool augmentation satellite imagery multimodal reasoning

OpenEarthAgent：一个用于工具增强地理空间智能体的统一框架 / OpenEarthAgent: A Unified Framework for Tool-Augmented Geospatial Agents

1️⃣ 一句话总结

这篇论文提出了一个名为OpenEarthAgent的统一框架，通过训练模型结合卫星图像、自然语言查询和多步骤推理，使AI能够像专家一样理解和分析复杂的地理空间问题，比如城市发展、环境监测和灾害评估。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.11144

arXiv 提交日期: 2026-02-11

multi-modal model evaluation benchmark fluid intelligence visual generation context comprehension evaluation suite multimodal reasoning

GENIUS：生成式流体智能评估套件 / GENIUS: Generative Fluid Intelligence Evaluation Suite

1️⃣ 一句话总结

这篇论文提出了一个名为GENIUS的新评估标准，旨在测试AI模型在遇到全新、未见过的情境时，能否像人类一样灵活推理、归纳规律并创造新内容，而不仅仅是依赖已有的知识库，结果发现当前主流模型在这方面的能力仍有明显不足。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.08241

arXiv 提交日期: 2026-02-09

multi-modal model training llm visual attention reinforcement learning multimodal reasoning error correction credit assignment

多模态大语言模型真的“看见”了吗？——强化其视觉注意力机制 / Do MLLMs Really See It: Reinforcing Visual Attention in Multimodal LLMs

1️⃣ 一句话总结

这篇论文发现当前的多模态大模型在推理时视觉注意力不集中且难以自我修正，导致错误累积，为此提出了一种名为SAYO的新模型，它通过强化学习奖励机制来引导模型更可靠地关注图像关键区域，从而在多种视觉推理任务上取得了更好的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.04290

arXiv 提交日期: 2026-02-04

multi-modal model training agents multimodal reasoning reinforcement learning process supervision error correction collaborative inference

引导验证器：通过动态过程监督实现协作式多模态推理 / Guided Verifier: Collaborative Multimodal Reasoning via Dynamic Process Supervision

1️⃣ 一句话总结

这篇论文提出了一种名为‘引导验证器’的新框架，通过让一个专门的验证模型在推理过程中实时监督和引导主模型，有效防止错误累积，从而显著提升了多模态大模型在复杂数学和推理任务上的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.02453

arXiv 提交日期: 2026-02-02

natural language processing multi-modal model evaluation multimodal reasoning visual storytelling chain-of-thought comics temporal reasoning

用漫画思考：通过结构化视觉叙事增强多模态推理 / Thinking with Comics: Enhancing Multimodal Reasoning through Structured Visual Storytelling

1️⃣ 一句话总结

这篇论文提出了一种名为‘用漫画思考’的新方法，它利用漫画这种信息密度高、结构清晰的视觉媒介，在图片和视频之间找到了一个平衡点，从而更高效、更准确地进行多步骤的时间和因果推理任务。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.12266

1️⃣ 一句话总结

arXiv ID: 2603.09206

1️⃣ 一句话总结

arXiv ID: 2603.02024

1️⃣ 一句话总结

arXiv ID: 2603.01990

1️⃣ 一句话总结

arXiv ID: 2602.21497

1️⃣ 一句话总结

arXiv ID: 2602.17665

1️⃣ 一句话总结

arXiv ID: 2602.11144

1️⃣ 一句话总结

arXiv ID: 2602.08241

1️⃣ 一句话总结

arXiv ID: 2602.04290

1️⃣ 一句话总结

arXiv ID: 2602.02453

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.12266 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.09206 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.02024 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.01990 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.21497 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.17665 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.11144 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.08241 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.04290 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.02453 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.12266

arXiv ID: 2603.09206

arXiv ID: 2603.02024

arXiv ID: 2603.01990

arXiv ID: 2602.21497

arXiv ID: 2602.17665

arXiv ID: 2602.11144

arXiv ID: 2602.08241

arXiv ID: 2602.04290

arXiv ID: 2602.02453