arXiv最新AI论文速览速学

🔍

标签: #visual reasoning ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 98 72小时内新更新论文 72h更新 100 最新: ATLAS: Agentic or Latent Visual Reasoning? One Word is Enough for Both 05-15

arXiv ID: 2602.11731

arXiv 提交日期: 2026-02-12

multi-modal llm model evaluation visual reasoning domain-specific language optical decompression benchmark self-verification

通过草稿思考：基于逻辑重建的光学解压缩 / Thinking with Drafting: Optical Decompression via Logical Reconstruction

1️⃣ 一句话总结

这篇论文提出了一种名为‘通过草稿思考’的新方法，它让AI在解决视觉推理问题时，先像写草稿一样把思考过程写成可执行的代码，然后通过生成图像来验证自己的逻辑是否正确，从而显著提升了在复杂数学和逻辑问题上的精确度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.08346

arXiv 提交日期: 2026-02-09

multi-modal model evaluation benchmark process reward models vision language models visual reasoning reasoning trajectories evaluation benchmark

揭示什么、是否以及如何？为图像推理思维构建过程奖励模型 / What, Whether and How? Unveiling Process Reward Models for Thinking with Images Reasoning

1️⃣ 一句话总结

这篇论文针对大型视觉语言模型在‘图像思维’推理中容易出错的问题，首次创建了一个专门的评估基准，揭示了现有模型难以准确评判推理过程，并指出了未来改进方向。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.07833

arXiv 提交日期: 2026-02-08

multi-modal llm model evaluation faithfulness chain-of-thought benchmark visual reasoning interpretability

SPD-Faith Bench：诊断与提升多模态大语言模型思维链推理的忠实性 / SPD-Faith Bench: Diagnosing and Improving Faithfulness in Chain-of-Thought for Multimodal Large Language Models

1️⃣ 一句话总结

这篇论文提出了一个名为SPD-Faith Bench的诊断基准，用于发现多模态大模型在思维链推理中存在的‘感知盲区’和‘感知-推理脱节’两大不忠实问题，并通过一种无需训练的可视化证据校准框架SAGE来提升推理的可靠性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.01541

arXiv 提交日期: 2026-02-02

multi-modal model training llm visual reasoning cognitive ai latent embeddings vqa benchmark reinforcement learning

迈向多模态大语言模型中的认知超感知 / Toward Cognitive Supersensing in Multimodal Large Language Model

1️⃣ 一句话总结

这篇论文提出了一种名为‘认知超感知’的新训练方法，通过赋予多模态大语言模型类似人类的视觉想象能力，使其能够进行基于视觉的内部推理，从而显著提升其在复杂认知任务（如视觉问答）上的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.18631

arXiv 提交日期: 2026-01-26

multi-modal agents model training visual reasoning tool orchestration reinforcement learning multimodal llm generalization

AdaReasoner：面向迭代式视觉推理的动态工具编排 / AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning

1️⃣ 一句话总结

这篇论文提出了一个名为AdaReasoner的多模态模型家族，它通过强化学习和自适应机制，让AI能够像人一样在复杂视觉推理任务中自主选择、组合和使用各种工具，并在多个基准测试中取得了领先的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.14750

arXiv 提交日期: 2026-01-21

llm multi-modal model evaluation chain-of-thought visual reasoning token compression vision language models reasoning efficiency

思维渲染：将文本思维链渲染为图像以实现视觉潜在推理 / Render-of-Thought: Rendering Textual Chain-of-Thought as Images for Visual Latent Reasoning

1️⃣ 一句话总结

这篇论文提出了一种名为‘思维渲染’的新方法，它将大语言模型推理过程中冗长的文字思维链转换成图像，从而大幅减少了计算负担并加速了推理过程，同时让模型的思考步骤变得可见和可追溯。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.10129

arXiv 提交日期: 2026-01-15

multi-modal model training natural language processing visual reasoning attention alignment knowledge distillation multimodal grounding curriculum learning

LaViT：对齐潜在视觉思维以实现多模态推理 / LaViT: Aligning Latent Visual Thoughts for Multi-modal Reasoning

1️⃣ 一句话总结

这篇论文提出了一个名为LaViT的新框架，通过让学生模型在生成文本前先学习并复现教师模型的视觉关注轨迹和语义理解，有效解决了多模态推理中模型仅依赖语言先验而忽视真实视觉感知的问题，从而显著提升了模型的视觉基础能力，让小模型也能在复杂推理任务上取得优异表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.06803

arXiv 提交日期: 2026-01-11

multi-modal model training natural language processing visual reasoning latent reasoning efficient inference vision-language models dynamic alignment

先见森林后见树：用于高效视觉推理的潜在叠加 / Forest Before Trees: Latent Superposition for Efficient Visual Reasoning

1️⃣ 一句话总结

这篇论文提出了一种名为Laser的新方法，它通过让模型先在脑海里形成对图像的整体理解（‘森林’），再逐步聚焦到局部细节（‘树木’），从而在保持高准确率的同时，极大地提升了视觉推理的效率和泛化能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.06521

arXiv 提交日期: 2026-01-10

multi-modal model evaluation benchmark visual reasoning multimodal llms cognitive gap evaluation framework human baseline

BabyVision：超越语言的视觉推理 / BabyVision: Visual Reasoning Beyond Language

1️⃣ 一句话总结

这篇论文通过创建名为BabyVision的基准测试，揭示了当前最先进的多模态大语言模型在无需语言辅助的基础视觉推理能力上，甚至远不及三岁儿童的水平，表明它们在核心视觉感知方面存在根本性缺陷。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.03467

arXiv 提交日期: 2026-01-06

reinforcement learning computer vision multi-modal instruction-driven image editing visual reasoning chain-of-thought reward design reasoning-centric rl

ThinkRL-Edit：强化学习中的思维——面向推理中心的图像编辑 / ThinkRL-Edit: Thinking in Reinforcement Learning for Reasoning-Centric Image Editing

1️⃣ 一句话总结

这篇论文提出了一个名为ThinkRL-Edit的新方法，它通过强化学习让AI在编辑图片前先进行多步骤的‘思考’和‘验证’，从而更准确地完成需要复杂理解和推理的图片编辑任务。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2602.11731

1️⃣ 一句话总结

arXiv ID: 2602.08346

1️⃣ 一句话总结

arXiv ID: 2602.07833

1️⃣ 一句话总结

arXiv ID: 2602.01541

1️⃣ 一句话总结

arXiv ID: 2601.18631

1️⃣ 一句话总结

arXiv ID: 2601.14750

1️⃣ 一句话总结

arXiv ID: 2601.10129

1️⃣ 一句话总结

arXiv ID: 2601.06803

1️⃣ 一句话总结

arXiv ID: 2601.06521

1️⃣ 一句话总结

arXiv ID: 2601.03467

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2602.11731 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.08346 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.07833 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.01541 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.18631 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.14750 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.10129 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.06803 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.06521 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.03467 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2602.11731

arXiv ID: 2602.08346

arXiv ID: 2602.07833

arXiv ID: 2602.01541

arXiv ID: 2601.18631

arXiv ID: 2601.14750

arXiv ID: 2601.10129

arXiv ID: 2601.06803

arXiv ID: 2601.06521

arXiv ID: 2601.03467