arXiv最新AI论文速览速学

🔍

标签: #visual grounding ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 99 72小时内新更新论文 72h更新 99 最新: ROVER: Routing Object-Centric Visual Evidence for Grounded Multi-Image Reasoning 05-30

arXiv ID: 2604.01915

arXiv 提交日期: 2026-04-02

medical multi-modal computer vision visual grounding medical imaging attention mechanisms knowledge integration radiology reports

通过知识引导的空间提示增强医学视觉定位 / Enhancing Medical Visual Grounding via Knowledge-guided Spatial Prompts

1️⃣ 一句话总结

这项研究提出了一种名为KnowMVG的新方法，通过将医学知识编码为提示并改进注意力机制，让AI在医疗影像中更精确地定位与诊断报告相关的病灶区域，从而提升临床决策的可解释性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.00455

arXiv 提交日期: 2026-04-01

natural language processing computer vision multi-modal object hallucination visual grounding training-free method large vision-language models inference optimization

首词对数增强：缓解大型视觉语言模型中物体幻觉的视觉接地方法 / First Logit Boosting: Visual Grounding Method to Mitigate Object Hallucination in Large Vision-Language Models

1️⃣ 一句话总结

这篇论文提出了一种无需额外训练的简单方法，通过增强生成过程中首个词的重要性来持续利用视觉信息，从而有效减少AI模型在描述图片时凭空捏造物体的错误。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.01280

arXiv 提交日期: 2026-04-01

multi-modal llm model evaluation evidence highlighting attention patterns training-free inference multimodal vqa visual grounding

再看一眼：多模态大语言模型中无需训练的证据高亮方法 / Look Twice: Training-Free Evidence Highlighting in Multimodal Large Language Models

1️⃣ 一句话总结

这篇论文提出了一种名为‘Look Twice’的无需训练的方法，通过分析模型自身的注意力模式来识别并高亮图像和文本中的关键证据，从而显著提升了多模态大模型在回答知识密集型问题时的准确性和可靠性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.22847

arXiv 提交日期: 2026-03-24

multi-modal model training agents multimodal reasoning reinforcement learning chain-of-thought policy optimization visual grounding

重新思考多模态思维链的令牌级策略优化 / Rethinking Token-Level Policy Optimization for Multimodal Chain-of-Thought

1️⃣ 一句话总结

这篇论文提出了一种名为PEPO的新方法，通过精细分析多模态推理过程中每个令牌的动态特性，并利用感知先验和探索性机制来优化模型，从而在多类视觉语言推理任务上稳定且显著地提升了性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.15558

arXiv 提交日期: 2026-03-16

computer vision agents benchmark affordance prediction panoramic vision embodied ai dataset visual grounding

全景可供性预测 / Panoramic Affordance Prediction

1️⃣ 一句话总结

这篇论文首次提出并解决了全景图像中的可供性预测问题，通过构建一个大规模数据集并设计一种无需训练、由粗到细的仿生视觉处理流程，显著提升了AI智能体对360度全景环境的整体感知与交互能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.02626

arXiv 提交日期: 2026-03-03

agents multi-modal model evaluation web navigation visual grounding explicit memory benchmark autonomous agents

看见与记忆：一种用于网页遍历的多模态智能体 / See and Remember: A Multimodal Agent for Web Traversal

1️⃣ 一句话总结

这篇论文提出了一种名为V-GEMS的新型多模态智能体，它通过结合视觉定位和显式记忆系统，让AI在浏览网页时能更好地理解界面元素并记住走过的路径，从而有效避免迷路和重复打转，显著提升了网页导航的准确性和效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.04304

arXiv 提交日期: 2026-02-04

multi-modal model evaluation natural language processing vision-language models visual grounding attention mechanisms vqa dynamic inference

超越静态裁剪：面向复杂推理任务的层自适应视觉定位与解码增强 / Beyond Static Cropping: Layer-Adaptive Visual Localization and Decoding Enhancement

1️⃣ 一句话总结

这篇论文发现，大视觉语言模型在不同任务中依赖不同网络层进行视觉定位，并据此提出了一种无需训练、能自适应选择关键视觉信息层以提升复杂视觉问答准确性的新方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.03017

arXiv 提交日期: 2026-01-06

multi-modal natural language processing benchmark autoformalization multimodal reasoning physics reasoning visual grounding formal verification

MMFormalizer：面向真实世界的多模态自动形式化方法 / MMFormalizer: Multimodal Autoformalization in the Wild

1️⃣ 一句话总结

这篇论文提出了一个名为MMFormalizer的新框架，它首次将自动形式化（即把自然语言描述的数学物理问题转化为机器可推理的严格公式）从纯文本扩展到包含视觉信息的真实世界，通过递归构建和自适应终止，让机器能根据图像和文字共同推断出隐藏的物理约束并完成形式化，并在涵盖经典力学、相对论等多个领域的基准测试中验证了其有效性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.23044

arXiv 提交日期: 2025-12-28

benchmark agents multi-modal video reasoning open-web research temporal evidence agentic evaluation visual grounding

Video-BrowseComp：在开放网络上对智能体视频研究进行基准测试 / Video-BrowseComp: Benchmarking Agentic Video Research on Open Web

1️⃣ 一句话总结

这篇论文提出了首个名为Video-BrowseComp的基准测试，专门用于评估AI智能体在开放网络上主动搜索、观看并分析视频内容以回答复杂问题的能力，揭示了当前先进模型在此类需要视觉时序推理的任务上表现仍然很差。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.17495

arXiv 提交日期: 2025-12-19

multi-modal model evaluation benchmark visual grounding multimodal llms evaluation benchmark object localization hallucination detection

GroundingME：通过多维评估揭示多模态大语言模型中的视觉指代差距 / GroundingME: Exposing the Visual Grounding Gap in MLLMs through Multi-Dimensional Evaluation

1️⃣ 一句话总结

这篇论文提出了一个名为GroundingME的新基准测试，通过四个关键维度系统性地评估多模态大语言模型，发现它们在复杂的真实世界视觉指代任务上存在巨大能力差距，并提出了两种改进策略。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.01915

1️⃣ 一句话总结

arXiv ID: 2604.00455

1️⃣ 一句话总结

arXiv ID: 2604.01280

1️⃣ 一句话总结

arXiv ID: 2603.22847

1️⃣ 一句话总结

arXiv ID: 2603.15558

1️⃣ 一句话总结

arXiv ID: 2603.02626

1️⃣ 一句话总结

arXiv ID: 2602.04304

1️⃣ 一句话总结

arXiv ID: 2601.03017

1️⃣ 一句话总结

arXiv ID: 2512.23044

1️⃣ 一句话总结

arXiv ID: 2512.17495

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.01915 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.00455 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.01280 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.22847 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.15558 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.02626 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.04304 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.03017 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.23044 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.17495 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.01915

arXiv ID: 2604.00455

arXiv ID: 2604.01280

arXiv ID: 2603.22847

arXiv ID: 2603.15558

arXiv ID: 2603.02626

arXiv ID: 2602.04304

arXiv ID: 2601.03017

arXiv ID: 2512.23044

arXiv ID: 2512.17495