arXiv最新AI论文速览速学

🔍

标签: #visual grounding ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 89 72小时内新更新论文 72h更新 189 最新: When Prompts Override Vision: Prompt-Induced Hallucinations in LVLMs 04-24

arXiv ID: 2604.21911

arXiv 提交日期: 2026-04-23

llm computer vision model evaluation hallucination benchmark preference optimization visual grounding fine-tuning

当提示覆盖视觉：大型视觉语言模型中由提示引发的幻觉 / When Prompts Override Vision: Prompt-Induced Hallucinations in LVLMs

1️⃣ 一句话总结

本文研究发现，大型视觉语言模型（LVLM）产生幻觉的主要原因并非视觉处理能力不足，而是过度依赖文本指令中的先验知识，并据此提出了新的评估基准HalluScope和基于偏好优化的微调框架HalluVL-DPO，有效减少了这类幻觉，同时保持了模型其他性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.14656

arXiv 提交日期: 2026-04-16

medical multi-modal agents patient education radiology multimodal benchmark doctor-patient interaction visual grounding

重新思考患者教育：多轮多模态交互视角 / Rethinking Patient Education as Multi-turn Multi-modal Interaction

1️⃣ 一句话总结

这篇论文提出了一个名为MedImageEdu的新基准测试，用于评估AI系统如何像医生一样，结合放射影像和文字解释，通过多轮对话为不同背景的患者提供个性化、安全且易于理解的教育，而不仅仅是回答问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.12890

arXiv 提交日期: 2026-04-14

agents multi-modal model training multimodal search long-horizon reasoning file-based representation data synthesis visual grounding

迈向长视野的自主多模态搜索 / Towards Long-horizon Agentic Multimodal Search

1️⃣ 一句话总结

这篇论文提出了一种名为LMM-Searcher的新框架，通过将视觉信息存储在外部文件并用轻量级文本标识符来管理，解决了多模态智能体在长时间、多步骤搜索任务中信息混杂和计算成本高的问题，从而实现了更高效、更准确的长序列多模态搜索。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.12944

arXiv 提交日期: 2026-04-14

video llm model evaluation hallucination video-language models benchmark temporal representation visual grounding

失真还是捏造？视频大语言模型中的幻觉问题综述 / Distorted or Fabricated? A Survey on Hallucination in Video LLMs

1️⃣ 一句话总结

这篇论文系统梳理了视频大语言模型在理解视频内容时，容易产生看似合理但实际与视频不符的‘幻觉’问题，分析了其类型、成因、评估方法和解决思路，为构建更可靠的视频理解系统提供了路线图。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.11025

arXiv 提交日期: 2026-04-13

multi-modal llm model evaluation multimodal reasoning test-time scaling perceptual uncertainty visual grounding iterative refinement

测试时感知扩展：解决“图像思维”中的定位悖论 / Test-time Scaling over Perception: Resolving the Grounding Paradox in Thinking with Images

1️⃣ 一句话总结

这篇论文提出了一种名为TTSP的新方法，通过让AI模型在推理时像人类一样“多角度观察、筛选信息、整合知识并聚焦疑点”，有效解决了现有多模态模型在需要精细视觉推理时面临的“先看哪里”的决策困境，从而显著提升了其理解和分析复杂图像的能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.11789

arXiv 提交日期: 2026-04-13

multi-modal computer vision llm object-centric vision visual grounding referring segmentation visual editing multimodal systems

大语言多模态模型与以物体为中心的视觉：理解、分割、编辑与生成 / LMMs Meet Object-Centric Vision: Understanding, Segmentation, Editing and Generation

1️⃣ 一句话总结

这篇论文综述了如何将大语言多模态模型与以物体为中心的视觉技术相结合，以解决现有模型在精确物体定位、细粒度空间推理和可控视觉操作方面的不足，从而推动更精准、可靠的多模态系统发展。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.07413

arXiv 提交日期: 2026-04-08

multi-modal model evaluation benchmark manufacturing multimodal llms fine-grained evaluation domain adaptation visual grounding

FORGE：面向制造场景的细粒度多模态评估 / FORGE:Fine-grained Multimodal Evaluation for Manufacturing Scenarios

1️⃣ 一句话总结

这篇论文提出了一个名为FORGE的评估框架，通过构建包含真实2D图像和3D点云的细粒度标注数据集，评估了多模态大模型在制造业任务中的表现，发现其核心瓶颈并非视觉理解能力，而是缺乏领域专业知识，并证明了利用该数据集进行微调能显著提升模型在制造业场景下的准确性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.01915

arXiv 提交日期: 2026-04-02

medical multi-modal computer vision visual grounding medical imaging attention mechanisms knowledge integration radiology reports

通过知识引导的空间提示增强医学视觉定位 / Enhancing Medical Visual Grounding via Knowledge-guided Spatial Prompts

1️⃣ 一句话总结

这项研究提出了一种名为KnowMVG的新方法，通过将医学知识编码为提示并改进注意力机制，让AI在医疗影像中更精确地定位与诊断报告相关的病灶区域，从而提升临床决策的可解释性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.00455

arXiv 提交日期: 2026-04-01

natural language processing computer vision multi-modal object hallucination visual grounding training-free method large vision-language models inference optimization

首词对数增强：缓解大型视觉语言模型中物体幻觉的视觉接地方法 / First Logit Boosting: Visual Grounding Method to Mitigate Object Hallucination in Large Vision-Language Models

1️⃣ 一句话总结

这篇论文提出了一种无需额外训练的简单方法，通过增强生成过程中首个词的重要性来持续利用视觉信息，从而有效减少AI模型在描述图片时凭空捏造物体的错误。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.01280

arXiv 提交日期: 2026-04-01

multi-modal llm model evaluation evidence highlighting attention patterns training-free inference multimodal vqa visual grounding

再看一眼：多模态大语言模型中无需训练的证据高亮方法 / Look Twice: Training-Free Evidence Highlighting in Multimodal Large Language Models

1️⃣ 一句话总结

这篇论文提出了一种名为‘Look Twice’的无需训练的方法，通过分析模型自身的注意力模式来识别并高亮图像和文本中的关键证据，从而显著提升了多模态大模型在回答知识密集型问题时的准确性和可靠性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.21911

1️⃣ 一句话总结

arXiv ID: 2604.14656

1️⃣ 一句话总结

arXiv ID: 2604.12890

1️⃣ 一句话总结

arXiv ID: 2604.12944

1️⃣ 一句话总结

arXiv ID: 2604.11025

1️⃣ 一句话总结

arXiv ID: 2604.11789

1️⃣ 一句话总结

arXiv ID: 2604.07413

1️⃣ 一句话总结

arXiv ID: 2604.01915

1️⃣ 一句话总结

arXiv ID: 2604.00455

1️⃣ 一句话总结

arXiv ID: 2604.01280

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.21911 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.14656 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.12890 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.12944 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.11025 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.11789 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.07413 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.01915 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.00455 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.01280 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.21911

arXiv ID: 2604.14656

arXiv ID: 2604.12890

arXiv ID: 2604.12944

arXiv ID: 2604.11025

arXiv ID: 2604.11789

arXiv ID: 2604.07413

arXiv ID: 2604.01915

arXiv ID: 2604.00455

arXiv ID: 2604.01280