arXiv最新AI论文速览速学

🔍

标签: #multimodal reasoning ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 166 72小时内新更新论文 72h更新 171 最新: MM-CondChain: A Programmatically Verified Benchmark for Visually Grounded Deep Compositional Reasoning 03-16

arXiv ID: 2601.19834

arXiv 提交日期: 2026-01-27

multi-modal theory model evaluation visual generation world models chain-of-thought multimodal reasoning evaluation suite

视觉生成通过多模态世界模型解锁类人推理 / Visual Generation Unlocks Human-Like Reasoning through Multimodal World Models

1️⃣ 一句话总结

这篇论文通过理论和实验证明，在涉及物理和空间等需要丰富先验知识的任务中，结合视觉生成与语言推理的多模态世界模型，比纯语言模型能更有效地模拟人类认知，实现更强大的类人智能推理。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.14127

arXiv 提交日期: 2026-01-20

multi-modal model evaluation llm safety evaluation multimodal reasoning benchmark attention analysis risk assessment

聪明的副作用：多模态大语言模型在多图推理中的安全风险 / The Side Effects of Being Smart: Safety Risks in MLLMs' Multi-Image Reasoning

1️⃣ 一句话总结

这篇论文发现，随着多模态大语言模型处理多图推理的能力越强，它们反而更容易产生安全漏洞，因为模型可能过度专注于解题而忽视了安全约束。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.17027

arXiv 提交日期: 2026-01-17

multi-modal model evaluation benchmark scientific image synthesis text-to-image logical validity multimodal reasoning synthetic data

科学图像合成：基准测试、方法论与下游应用 / Scientific Image Synthesis: Benchmarking, Methodologies, and Downstream Utility

1️⃣ 一句话总结

这篇论文系统地研究了如何生成科学上正确的图像，提出了一个能提升结构精度的逻辑驱动框架和一个评估科学正确性的新基准，并证明使用高质量合成图像训练大模型能有效提升其多模态推理能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.09536

arXiv 提交日期: 2026-01-14

multi-modal llm model training multimodal reasoning generative ai instruction tuning reinforcement learning visualization generation

Omni-R1：迈向统一生成式多模态推理范式 / Omni-R1: Towards the Unified Generative Paradigm for Multimodal Reasoning

1️⃣ 一句话总结

这篇论文提出了一个名为Omni-R1的统一生成式多模态推理框架，它通过在推理过程中生成中间图像来整合多种视觉推理能力，从而能够灵活应对多种不同的多模态任务。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.06944

arXiv 提交日期: 2026-01-11

multi-modal model evaluation benchmark sketch understanding visual grading stem education error diagnosis multimodal reasoning

SketchJudge：一个用于评估多模态大语言模型对手绘图表进行分级诊断的基准 / SketchJudge: A Diagnostic Benchmark for Grading Hand-drawn Diagrams with Multimodal Large Language Models

1️⃣ 一句话总结

这篇论文提出了一个名为SketchJudge的新基准测试，专门用于评估多模态大语言模型在诊断和评分学生手绘科学图表（如几何图、流程图）时的能力，结果发现当前最先进的模型在这方面仍远落后于人类水平。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.03017

arXiv 提交日期: 2026-01-06

multi-modal natural language processing benchmark autoformalization multimodal reasoning physics reasoning visual grounding formal verification

MMFormalizer：面向真实世界的多模态自动形式化方法 / MMFormalizer: Multimodal Autoformalization in the Wild

1️⃣ 一句话总结

这篇论文提出了一个名为MMFormalizer的新框架，它首次将自动形式化（即把自然语言描述的数学物理问题转化为机器可推理的严格公式）从纯文本扩展到包含视觉信息的真实世界，通过递归构建和自适应终止，让机器能根据图像和文字共同推断出隐藏的物理约束并完成形式化，并在涵盖经典力学、相对论等多个领域的基准测试中验证了其有效性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.24165

arXiv 提交日期: 2025-12-30

multi-modal model training computer vision multimodal reasoning diffusion models vision-centric tasks generative reasoning image-to-image

DiffThinker：迈向基于扩散模型的生成式多模态推理 / DiffThinker: Towards Generative Multimodal Reasoning with Diffusion Models

1️⃣ 一句话总结

这篇论文提出了一种名为DiffThinker的新方法，它将多模态推理任务直接当作生成图像的过程来处理，相比现有主流模型，在需要视觉逻辑和空间精度的复杂任务上表现更出色，效率更高且可控性更强。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.24297

arXiv 提交日期: 2025-12-30

llm agents multi-modal visual reasoning multimodal reasoning reinforcement learning mathematical reasoning structural reasoning

图形化思考：通过主动视觉思维提升推理前沿 / Figure It Out: Improving the Frontier of Reasoning with Active Visual Thinking

1️⃣ 一句话总结

这篇论文提出了一种名为FIGR的新方法，它通过让AI在解决复杂问题时主动绘制图形来辅助思考，从而显著提升了在数学推理等需要理解空间和结构关系任务上的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.22334

arXiv 提交日期: 2025-12-26

benchmark model evaluation multi-modal scientific intelligence evaluation toolkit multimodal reasoning science domains ai4science

SciEvalKit：一个用于科学通用智能的开源评估工具包 / SciEvalKit: An Open-source Evaluation Toolkit for Scientific General Intelligence

1️⃣ 一句话总结

这篇论文介绍了一个名为SciEvalKit的开源工具包，它专门用来评估AI模型在多个科学领域的综合能力，比如科学推理、代码生成和知识理解，旨在为科学AI的发展提供一个标准化且可扩展的评测平台。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.22120

arXiv 提交日期: 2025-12-26

multi-modal model training machine learning vision-language models perceptual shaping multimodal reasoning training objective visual evidence

看得更少，看得更准：用于多模态推理的双向感知塑造 / See Less, See Right: Bi-directional Perceptual Shaping For Multimodal Reasoning

1️⃣ 一句话总结

这篇论文提出了一种名为双向感知塑造的新方法，通过训练模型在回答问题时更精准地关注图像中的关键区域并避免仅依赖文本的捷径，从而显著提升了视觉语言模型在多模态推理任务上的准确性和泛化能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2601.19834

1️⃣ 一句话总结

arXiv ID: 2601.14127

1️⃣ 一句话总结

arXiv ID: 2601.17027

1️⃣ 一句话总结

arXiv ID: 2601.09536

1️⃣ 一句话总结

arXiv ID: 2601.06944

1️⃣ 一句话总结

arXiv ID: 2601.03017

1️⃣ 一句话总结

arXiv ID: 2512.24165

1️⃣ 一句话总结

arXiv ID: 2512.24297

1️⃣ 一句话总结

arXiv ID: 2512.22334

1️⃣ 一句话总结

arXiv ID: 2512.22120

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2601.19834 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.14127 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.17027 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.09536 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.06944 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.03017 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.24165 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.24297 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.22334 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.22120 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2601.19834

arXiv ID: 2601.14127

arXiv ID: 2601.17027

arXiv ID: 2601.09536

arXiv ID: 2601.06944

arXiv ID: 2601.03017

arXiv ID: 2512.24165

arXiv ID: 2512.24297

arXiv ID: 2512.22334

arXiv ID: 2512.22120