arXiv最新AI论文速览速学

🔍

标签: #visual reasoning ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 166 72小时内新更新论文 72h更新 171 最新: AgentVista: Evaluating Multimodal Agents in Ultra-Challenging Realistic Visual Scenarios 02-27

arXiv ID: 2602.23166

arXiv 提交日期: 2026-02-26

agents multi-modal benchmark multimodal agents tool use evaluation benchmark long-horizon tasks visual reasoning

AgentVista：在超挑战性真实视觉场景中评估多模态智能体 / AgentVista: Evaluating Multimodal Agents in Ultra-Challenging Realistic Visual Scenarios

1️⃣ 一句话总结

这篇论文提出了一个名为AgentVista的新基准测试，用于评估多模态智能体在包含丰富视觉细节和需要长时间、多步骤工具协作的真实复杂任务中的表现，结果发现当前最先进的模型在此类任务上仍存在巨大能力差距。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.15769

arXiv 提交日期: 2026-02-17

llm multi-modal model evaluation multimodal llms table attribution visual reasoning evidence citation structured data

ViTaB-A：评估多模态大语言模型在视觉表格归因任务上的表现 / ViTaB-A: Evaluating Multimodal Large Language Models on Visual Table Attribution

1️⃣ 一句话总结

这篇论文研究发现，当前的多模态大语言模型在回答基于表格的问题时，虽然能给出正确答案，但很难准确地指出答案具体来源于表格中的哪些行和列，这使得它们在需要透明度和可追溯性的应用中并不可靠。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.11731

arXiv 提交日期: 2026-02-12

multi-modal llm model evaluation visual reasoning domain-specific language optical decompression benchmark self-verification

通过草稿思考：基于逻辑重建的光学解压缩 / Thinking with Drafting: Optical Decompression via Logical Reconstruction

1️⃣ 一句话总结

这篇论文提出了一种名为‘通过草稿思考’的新方法，它让AI在解决视觉推理问题时，先像写草稿一样把思考过程写成可执行的代码，然后通过生成图像来验证自己的逻辑是否正确，从而显著提升了在复杂数学和逻辑问题上的精确度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.08346

arXiv 提交日期: 2026-02-09

multi-modal model evaluation benchmark process reward models vision language models visual reasoning reasoning trajectories evaluation benchmark

揭示什么、是否以及如何？为图像推理思维构建过程奖励模型 / What, Whether and How? Unveiling Process Reward Models for Thinking with Images Reasoning

1️⃣ 一句话总结

这篇论文针对大型视觉语言模型在‘图像思维’推理中容易出错的问题，首次创建了一个专门的评估基准，揭示了现有模型难以准确评判推理过程，并指出了未来改进方向。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.07833

arXiv 提交日期: 2026-02-08

multi-modal llm model evaluation faithfulness chain-of-thought benchmark visual reasoning interpretability

SPD-Faith Bench：诊断与提升多模态大语言模型思维链推理的忠实性 / SPD-Faith Bench: Diagnosing and Improving Faithfulness in Chain-of-Thought for Multimodal Large Language Models

1️⃣ 一句话总结

这篇论文提出了一个名为SPD-Faith Bench的诊断基准，用于发现多模态大模型在思维链推理中存在的‘感知盲区’和‘感知-推理脱节’两大不忠实问题，并通过一种无需训练的可视化证据校准框架SAGE来提升推理的可靠性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.01541

arXiv 提交日期: 2026-02-02

multi-modal model training llm visual reasoning cognitive ai latent embeddings vqa benchmark reinforcement learning

迈向多模态大语言模型中的认知超感知 / Toward Cognitive Supersensing in Multimodal Large Language Model

1️⃣ 一句话总结

这篇论文提出了一种名为‘认知超感知’的新训练方法，通过赋予多模态大语言模型类似人类的视觉想象能力，使其能够进行基于视觉的内部推理，从而显著提升其在复杂认知任务（如视觉问答）上的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.18631

arXiv 提交日期: 2026-01-26

multi-modal agents model training visual reasoning tool orchestration reinforcement learning multimodal llm generalization

AdaReasoner：面向迭代式视觉推理的动态工具编排 / AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning

1️⃣ 一句话总结

这篇论文提出了一个名为AdaReasoner的多模态模型家族，它通过强化学习和自适应机制，让AI能够像人一样在复杂视觉推理任务中自主选择、组合和使用各种工具，并在多个基准测试中取得了领先的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.14750

arXiv 提交日期: 2026-01-21

llm multi-modal model evaluation chain-of-thought visual reasoning token compression vision language models reasoning efficiency

思维渲染：将文本思维链渲染为图像以实现视觉潜在推理 / Render-of-Thought: Rendering Textual Chain-of-Thought as Images for Visual Latent Reasoning

1️⃣ 一句话总结

这篇论文提出了一种名为‘思维渲染’的新方法，它将大语言模型推理过程中冗长的文字思维链转换成图像，从而大幅减少了计算负担并加速了推理过程，同时让模型的思考步骤变得可见和可追溯。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.10129

arXiv 提交日期: 2026-01-15

multi-modal model training natural language processing visual reasoning attention alignment knowledge distillation multimodal grounding curriculum learning

LaViT：对齐潜在视觉思维以实现多模态推理 / LaViT: Aligning Latent Visual Thoughts for Multi-modal Reasoning

1️⃣ 一句话总结

这篇论文提出了一个名为LaViT的新框架，通过让学生模型在生成文本前先学习并复现教师模型的视觉关注轨迹和语义理解，有效解决了多模态推理中模型仅依赖语言先验而忽视真实视觉感知的问题，从而显著提升了模型的视觉基础能力，让小模型也能在复杂推理任务上取得优异表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.06803

arXiv 提交日期: 2026-01-11

multi-modal model training natural language processing visual reasoning latent reasoning efficient inference vision-language models dynamic alignment

先见森林后见树：用于高效视觉推理的潜在叠加 / Forest Before Trees: Latent Superposition for Efficient Visual Reasoning

1️⃣ 一句话总结

这篇论文提出了一种名为Laser的新方法，它通过让模型先在脑海里形成对图像的整体理解（‘森林’），再逐步聚焦到局部细节（‘树木’），从而在保持高准确率的同时，极大地提升了视觉推理的效率和泛化能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2602.23166

1️⃣ 一句话总结

arXiv ID: 2602.15769

1️⃣ 一句话总结

arXiv ID: 2602.11731

1️⃣ 一句话总结

arXiv ID: 2602.08346

1️⃣ 一句话总结

arXiv ID: 2602.07833

1️⃣ 一句话总结

arXiv ID: 2602.01541

1️⃣ 一句话总结

arXiv ID: 2601.18631

1️⃣ 一句话总结

arXiv ID: 2601.14750

1️⃣ 一句话总结

arXiv ID: 2601.10129

1️⃣ 一句话总结

arXiv ID: 2601.06803

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2602.23166 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.15769 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.11731 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.08346 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.07833 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.01541 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.18631 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.14750 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.10129 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.06803 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2602.23166

arXiv ID: 2602.15769

arXiv ID: 2602.11731

arXiv ID: 2602.08346

arXiv ID: 2602.07833

arXiv ID: 2602.01541

arXiv ID: 2601.18631

arXiv ID: 2601.14750

arXiv ID: 2601.10129

arXiv ID: 2601.06803