arXiv最新AI论文速览速学

🔍

标签: #visual reasoning ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 166 72小时内新更新论文 72h更新 171 最新: AgentVista: Evaluating Multimodal Agents in Ultra-Challenging Realistic Visual Scenarios 02-27

arXiv ID: 2512.05111

arXiv 提交日期: 2025-12-04

agents model evaluation multi-modal reward modeling tool use visual reasoning reinforcement learning benchmark

ARM-Thinker：通过智能工具使用与视觉推理增强多模态生成奖励模型 / ARM-Thinker: Reinforcing Multimodal Generative Reward Models with Agentic Tool Use and Visual Reasoning

1️⃣ 一句话总结

这篇论文提出了一个名为ARM-Thinker的新型智能奖励模型，它能够自主调用外部工具来验证视觉细节和多页文档证据，从而显著提升了多模态任务中奖励判断的准确性和可解释性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.03043

arXiv 提交日期: 2025-12-02

multi-modal model training agents visual reasoning multimodal llm reinforcement learning unified model video understanding

OneThinker：面向图像与视频的一体化推理模型 / OneThinker: All-in-one Reasoning Model for Image and Video

1️⃣ 一句话总结

这篇论文提出了一个名为OneThinker的统一模型，它能够同时处理图像和视频的多种核心视觉理解任务（如问答、描述、定位和分割），并通过创新的训练方法解决了多任务学习中的奖励不平衡问题，在多个基准测试上表现出色，向通用的多模态推理专家迈进了一步。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.01988

arXiv 提交日期: 2025-12-01

agents computer vision reinforcement learning visual reasoning perception policy object detection spatial reasoning multi-modal learning

Artemis：用于感知策略学习的结构化视觉推理框架 / Artemis: Structured Visual Reasoning for Perception Policy Learning

1️⃣ 一句话总结

这篇论文提出了一个名为Artemis的新框架，它通过使用结构化的视觉对象框作为中间推理步骤，解决了传统语言推理在视觉感知任务中效果不佳的问题，从而显著提升了机器在理解和处理视觉信息时的准确性和泛化能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.22586

arXiv 提交日期: 2025-11-27

natural language processing multi-modal model training chain-of-thought vision-language models visual reasoning instruction tuning generalization

重新审视视觉推理泛化中冗长思维链的必要性 / Revisiting the Necessity of Lengthy Chain-of-Thought in Vision-centric Reasoning Generalization

1️⃣ 一句话总结

这项研究发现，在训练视觉语言模型进行视觉推理时，使用简短且仅包含关键定位步骤的思维链数据，比使用冗长或包含图像操作的复杂思维链，能带来更好的泛化能力和最终性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.21678

arXiv 提交日期: 2025-11-26

agents multi-modal model training multimodal memory error correction lifelong learning visual reasoning semantic schemas

具有生长与精炼多模态语义记忆的自主学习者 / Agentic Learner with Grow-and-Refine Multimodal Semantic Memory

1️⃣ 一句话总结

这篇论文提出了一个名为ViLoMem的双流记忆框架，通过分别记录视觉分心模式和逻辑推理错误，帮助多模态大模型从成功和失败的经验中学习，从而在多种任务中持续提升准确率并减少重复错误。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.21395

arXiv 提交日期: 2025-11-26

multi-modal model training llm visual reasoning latent space reinforcement learning multimodal llms knowledge distillation

Monet：超越图像和语言的潜在视觉空间推理 / Monet: Reasoning in Latent Visual Space Beyond Images and Language

1️⃣ 一句话总结

这篇论文提出了一个名为Monet的训练框架，通过让多模态大语言模型直接在潜在视觉空间中生成连续的视觉思维嵌入来进行推理，并针对训练挑战设计了专门的优化方法，显著提升了模型在真实世界感知和抽象视觉推理任务上的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.20814

arXiv 提交日期: 2025-11-25

computer vision model evaluation benchmark visual reasoning synthetic environment spatial reasoning reinforcement learning multimodal evaluation

SPHINX：一种用于视觉感知与推理的合成环境 / SPHINX: A Synthetic Environment for Visual Perception and Reasoning

1️⃣ 一句话总结

这篇论文提出了一个名为SPHINX的合成视觉推理测试平台，通过生成包含对称检测、空间推理等25类任务的谜题来评估模型能力，发现当前最先进模型表现远低于人类水平，并验证了基于可验证奖励的强化学习方法能有效提升模型在多模态推理任务上的准确率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.19661

arXiv 提交日期: 2025-11-24

agents multi-modal model training visual reasoning tool use policy optimization faithfulness evaluation reinforcement learning

CodeV：通过工具感知策略优化实现基于代码和图像的可靠视觉推理 / CodeV: Code with Images for Faithful Visual Reasoning via Tool-Aware Policy Optimization

1️⃣ 一句话总结

这篇论文提出了一个名为CodeV的视觉智能体和一个名为TAPO的训练框架，旨在通过直接监督AI使用视觉工具（如图像裁剪）的中间过程，解决现有视觉模型虽然能给出正确答案但实际推理过程不可靠的问题，从而构建更可信的视觉推理系统。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.21750

arXiv 提交日期: 2025-11-23

multi-modal model evaluation benchmark multimodal llms structured output visual reasoning schema compliance evaluation benchmark

SO-Bench：多模态大语言模型的结构化输出评估 / SO-Bench: A Structural Output Evaluation of Multimodal LLMs

1️⃣ 一句话总结

这篇论文提出了一个名为SO-Bench的新基准，专门用于评估多模态大语言模型根据视觉信息生成符合预定数据格式（如JSON）的结构化输出的能力，发现现有模型在此方面仍有不足，并通过训练实验展示了改进的可能性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.15705

arXiv 提交日期: 2025-11-19

agents computer vision multi-modal geolocalization visual reasoning web-augmented agents tool usage benchmark

GeoVista：用于地理定位的增强网络代理视觉推理 / GeoVista: Web-Augmented Agentic Visual Reasoning for Geolocalization

1️⃣ 一句话总结

这篇论文提出了GeoVista模型和GeoBench基准，通过结合图像放大和网络搜索工具，训练智能代理更准确地根据图片推断地理位置，性能接近顶尖闭源模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2512.05111

1️⃣ 一句话总结

arXiv ID: 2512.03043

1️⃣ 一句话总结

arXiv ID: 2512.01988

1️⃣ 一句话总结

arXiv ID: 2511.22586

1️⃣ 一句话总结

arXiv ID: 2511.21678

1️⃣ 一句话总结

arXiv ID: 2511.21395

1️⃣ 一句话总结

arXiv ID: 2511.20814

1️⃣ 一句话总结

arXiv ID: 2511.19661

1️⃣ 一句话总结

arXiv ID: 2511.21750

1️⃣ 一句话总结

arXiv ID: 2511.15705

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2512.05111 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.03043 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.01988 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.22586 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.21678 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.21395 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.20814 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.19661 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.21750 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.15705 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2512.05111

arXiv ID: 2512.03043

arXiv ID: 2512.01988

arXiv ID: 2511.22586

arXiv ID: 2511.21678

arXiv ID: 2511.21395

arXiv ID: 2511.20814

arXiv ID: 2511.19661

arXiv ID: 2511.21750

arXiv ID: 2511.15705