arXiv最新AI论文速览速学

🔍

标签: #vision-language models ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 39 72小时内新更新论文 72h更新 139 最新: Auditing Frontier Vision-Language Models for Trustworthy Medical VQA: Grounding Failures, Format Collapse, and Domain Adaptation 05-02

arXiv ID: 2604.08212

arXiv 提交日期: 2026-04-09

computer vision multi-modal systems vision-language models infrastructure inspection domain adaptation instruction tuning pavement assessment

用于全面自动化路面状况评估的视觉-语言基础模型 / Vision-Language Foundation Models for Comprehensive Automated Pavement Condition Assessment

1️⃣ 一句话总结

这篇论文通过构建一个大型专业路面数据集并训练一个名为PaveGPT的模型，成功地将通用视觉语言模型改造为能理解工程术语、进行结构化推理并输出符合行业标准的专业路面评估助手，从而用一个对话式工具替代了多个传统专业系统。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.07914

arXiv 提交日期: 2026-04-09

multi-modal model training model evaluation vision-language models hallucination reduction latent intervention generation behavior controlled steering

缓解大型视觉语言模型中的纠缠引导以降低幻觉 / Mitigating Entangled Steering in Large Vision-Language Models for Hallucination Reduction

1️⃣ 一句话总结

本文提出了一种名为MESA的即插即用框架，通过有选择性地干预模型内部信号来减少AI看图说话时产生的‘幻觉’（即文本与图像内容不符），同时避免了现有方法导致的输出变短或语言风格改变等问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.07034

arXiv 提交日期: 2026-04-08

robotics multi-modal computer vision robot failure analysis vision-language models keyframe extraction bird's-eye-view video tokenization

KITE：基于视觉语言模型的机器人故障分析之关键帧索引与标记化证据框架 / KITE: Keyframe-Indexed Tokenized Evidence for VLM-Based Robot Failure Analysis

1️⃣ 一句话总结

这篇论文提出了一种名为KITE的免训练方法，它能将冗长的机器人操作视频自动浓缩成一组包含关键动作画面和物体布局示意图的简洁、可解释的“证据包”，从而让通用视觉语言模型能更准确、高效地分析机器人任务中的故障类型、位置和原因。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.06770

arXiv 提交日期: 2026-04-08

computer vision natural language processing multi-modal document understanding graph extraction flowchart parsing procedural knowledge vision-language models

FlowExtract：从维护流程图中提取程序性知识 / FlowExtract: Procedural Knowledge Extraction from Maintenance Flowcharts

1️⃣ 一句话总结

这篇论文提出了一个名为FlowExtract的系统，它能够自动从工业维护流程图中提取出结构化的、可查询的程序步骤关系图，解决了现有视觉模型难以理解此类图表连接关系的难题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.05377

arXiv 提交日期: 2026-04-07

multi-modal benchmark computer vision aerial scene understanding vision-language models visual question answering uav simulation multimodal generation

UAVReason：一个用于多模态航空场景推理与生成的统一大规模基准 / UAVReason: A Unified, Large-Scale Benchmark for Multimodal Aerial Scene Reasoning and Generation

1️⃣ 一句话总结

这篇论文提出了首个专门针对无人机俯拍视角的大规模多模态基准数据集UAVReason，它整合了视觉问答、时序推理和图像生成等多种任务，并通过实验证明，采用统一的多任务学习方法能显著提升人工智能模型对复杂高空场景的理解和生成能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.04563

arXiv 提交日期: 2026-04-06

medical computer vision multi-modal temporal analysis chest x-rays vision-language models interval change medical imaging

胸部X光片时序变化学习的时序反转方法 / Temporal Inversion for Learning Interval Change in Chest X-Rays

1️⃣ 一句话总结

这项研究提出了一种名为TILA的新方法，通过反转前后X光片的顺序作为训练信号，让AI模型能更准确地识别和判断胸部病灶随时间的变化方向和趋势，从而辅助医生进行更精准的病情评估。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.04838

arXiv 提交日期: 2026-04-06

multi-modal model evaluation natural language processing vision-language models visual question answering prompt engineering image degradation hallucination reduction

细节越少，答案越好：面向视觉问答的降质驱动提示框架 / Less Detail, Better Answers: Degradation-Driven Prompting for VQA

1️⃣ 一句话总结

这篇论文提出了一种名为‘降质驱动提示’的新方法，通过有策略地降低输入图像的清晰度并添加结构性提示，帮助视觉语言模型忽略干扰性细节，专注于核心结构信息，从而在复杂的视觉问答任务中取得更准确的结果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.04929

arXiv 提交日期: 2026-04-06

multi-modal model evaluation systems vision-language models inference latency autoregressive decoding multi-agent inference model efficiency

重新思考模型效率：大模型的多智能体推理 / Rethinking Model Efficiency: Multi-Agent Inference with Large Models

1️⃣ 一句话总结

这篇论文发现，在视觉语言模型中，一个输出简短的大模型可能比一个输出冗长的小模型更高效，并提出了一个多智能体推理框架，通过让小模型提供关键推理信息来帮助大模型，从而在保持高效率的同时提升性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.04500

arXiv 提交日期: 2026-04-06

multi-modal model evaluation natural language processing vision-language models interpretability faithfulness saliency maps policy optimization

Saliency-R1：通过显著性图对齐奖励增强视觉-语言模型的可解释性与忠实推理 / Saliency-R1: Enforcing Interpretable and Faithful Vision-language Reasoning via Saliency-map Alignment Reward

1️⃣ 一句话总结

这篇论文提出了一个名为Saliency-R1的新框架，通过让模型在推理时生成的显著性图与人类标注的关键区域对齐，有效提升了视觉-语言模型的可解释性、推理忠实性以及任务表现，解决了模型过度依赖文本线索或产生无根据回答的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.02327

arXiv 提交日期: 2026-04-02

computer vision multi-modal model training vision-language models representation learning feature steering early fusion zero-shot generalization

可操控的视觉表征 / Steerable Visual Representations

1️⃣ 一句话总结

这篇论文提出了一种新型视觉表征方法，能够通过自然语言指令来灵活控制模型关注图像中的任意对象，同时保持通用视觉任务的性能，解决了现有视觉模型要么无法被引导、要么过度依赖语言的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.08212

1️⃣ 一句话总结

arXiv ID: 2604.07914

1️⃣ 一句话总结

arXiv ID: 2604.07034

1️⃣ 一句话总结

arXiv ID: 2604.06770

1️⃣ 一句话总结

arXiv ID: 2604.05377

1️⃣ 一句话总结

arXiv ID: 2604.04563

1️⃣ 一句话总结

arXiv ID: 2604.04838

1️⃣ 一句话总结

arXiv ID: 2604.04929

1️⃣ 一句话总结

arXiv ID: 2604.04500

1️⃣ 一句话总结

arXiv ID: 2604.02327

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.08212 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.07914 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.07034 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.06770 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.05377 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.04563 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.04838 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.04929 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.04500 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.02327 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.08212

arXiv ID: 2604.07914

arXiv ID: 2604.07034

arXiv ID: 2604.06770

arXiv ID: 2604.05377

arXiv ID: 2604.04563

arXiv ID: 2604.04838

arXiv ID: 2604.04929

arXiv ID: 2604.04500

arXiv ID: 2604.02327