arXiv最新AI论文速览速学

🔍

标签: #vision-language models ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 95 72小时内新更新论文 72h更新 100 最新: HomeSafe-Bench: Evaluating Vision-Language Models on Unsafe Action Detection for Embodied Agents in Household Scenarios 03-16

arXiv ID: 2603.07868

arXiv 提交日期: 2026-03-09

multi-modal model evaluation natural language processing vision-language models visual question answering domain-specific evaluation informativeness metric hospitality ai

Hospitality-VQA：面向决策的视觉语言模型信息性评估 / Hospitality-VQA: Decision-Oriented Informativeness Evaluation for Vision-Language Models

1️⃣ 一句话总结

这篇论文提出了一个针对酒店和设施图像的视觉问答新框架，通过定义“信息性”来衡量图像和问题对用户决策的帮助程度，并构建了一个专门的评测数据集，发现当前先进的视觉语言模型需要经过特定领域微调才能有效利用关键视觉信息来支持决策。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.07659

arXiv 提交日期: 2026-03-08

multi-modal model evaluation computer vision vision-language models test-time robustness counterfactual reasoning benchmarking language bias

通过自我批判推理框架扩展视觉语言模型的测试时鲁棒性 / Scaling Test-Time Robustness of Vision-Language Models via Self-Critical Inference Framework

1️⃣ 一句话总结

这篇论文提出了一种名为自我批判推理的新框架，通过多轮假设性提问来减少大型视觉语言模型对文字描述的过度依赖和敏感性问题，并引入了一个动态测试标准来更准确地评估不同模型的实际可靠性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.02872

arXiv 提交日期: 2026-03-03

multi-modal model training model evaluation streaming reasoning video understanding chain-of-thought vision-language models efficiency

边看边想：面向大型视觉语言模型的流式思维链推理 / Think-as-You-See: Streaming Chain-of-Thought Reasoning for Large Vision-Language Models

1️⃣ 一句话总结

这篇论文提出了一个名为‘边看边想’的新框架，让大型视觉语言模型能够像人类看视频流一样，一边接收图像帧一边实时进行推理，从而在保持高准确率的同时，大幅提升了处理视频的响应速度和效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.02557

arXiv 提交日期: 2026-03-03

multi-modal model training model evaluation vision-language models prompt tuning confusion reduction fine-grained classification cross-modal alignment

CAPT：用于减少视觉-语言错位的混淆感知提示调优 / CAPT: Confusion-Aware Prompt Tuning for Reducing Vision-Language Misalignment

1️⃣ 一句话总结

本文提出了一种名为CAPT的混淆感知提示调优框架，通过让视觉-语言模型学习自身在相似类别间产生的系统性分类错误，从而显著减少混淆、提升模型的判别力和泛化能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.02865

arXiv 提交日期: 2026-03-03

multi-modal model evaluation natural language processing vision-language models diagram understanding representation probing graph reasoning linear separability

节点早，边晚：探究大型视觉语言模型中的图表表征 / Nodes Are Early, Edges Are Late: Probing Diagram Representations in Large Vision-Language Models

1️⃣ 一句话总结

这篇论文发现，大型视觉语言模型在处理图表时，能很快识别出节点信息，但理解节点间连线（如箭头）所代表的关系却很慢，这解释了为什么这类模型在理解图表逻辑关系时表现不佳。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.02609

arXiv 提交日期: 2026-03-03

computer vision multi-modal autonomous driving 3d semantic occupancy vision-language models sensor fusion adverse weather voxel-based prediction

VLMFusionOcc3D：视觉语言模型辅助的多模态3D语义占据预测 / VLMFusionOcc3D: VLM Assisted Multi-Modal 3D Semantic Occupancy Prediction

1️⃣ 一句话总结

这篇论文提出了一种名为VLMFusionOcc3D的新方法，它巧妙地将视觉语言模型的语义理解能力与激光雷达、摄像头的数据融合起来，让自动驾驶汽车在各种天气条件下都能更准确、更可靠地识别和理解周围环境的3D结构和物体类别。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.02663

arXiv 提交日期: 2026-03-03

multi-modal model evaluation benchmark item response theory cross-modal reasoning evaluation framework vision-language models benchmark quality

利用多模态项目反应理论评估跨模态推理能力与问题特性 / Evaluating Cross-Modal Reasoning Ability and Problem Characteristics with Multimodal Item Response Theory

1️⃣ 一句话总结

本文提出了一种名为M3IRT的多模态项目反应理论框架，它能有效区分并筛选出真正需要跨模态推理的高质量测试问题，从而以更低的评估成本更可靠地衡量多模态大模型的综合理解能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.02618

arXiv 提交日期: 2026-03-03

computer vision multi-modal model evaluation out-of-distribution detection vision-language models distance consistency negative text selection inter-modal alignment

注意你选择负文本的方式：在视觉语言模型的分布外检测中追求距离一致性 / Mind the Way You Select Negative Texts: Pursuing the Distance Consistency in OOD Detection with VLMs

1️⃣ 一句话总结

这篇论文提出了一个名为InterNeg的新方法，通过确保文本和图像之间距离计算方式的一致性，来显著提升视觉语言模型在识别未知类别图像时的准确性和可靠性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.02959

arXiv 提交日期: 2026-03-03

medical computer vision multi-modal vision-language models few-shot learning semi-supervised learning medical imaging pseudo-labeling

视觉语言模型的半监督少样本自适应 / Semi-Supervised Few-Shot Adaptation of Vision-Language Models

1️⃣ 一句话总结

这篇论文提出了一种利用未标注数据来辅助标注的视觉语言模型半监督学习方法，能在医学图像分类等标注成本高的任务中，用极少的标注样本（减少超过50%的标注量）有效提升模型在类别不平衡情况下的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.03278

arXiv 提交日期: 2026-03-03

robotics agents model training autonomous play trajectory warping keypoint correspondences imitation learning vision-language models

Tether：基于对应关系驱动轨迹扭曲的自主功能化交互学习 / Tether: Autonomous Functional Play with Correspondence-Driven Trajectory Warping

1️⃣ 一句话总结

这篇论文提出了一种名为Tether的新方法，它能让机器人像玩游戏一样自主探索和学习新任务：只需少量演示，机器人就能通过视觉关键点匹配来调整动作，并在现实环境中持续执行、评估和改进任务，从而自动生成大量高质量的训练数据来提升自身技能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.07868

1️⃣ 一句话总结

arXiv ID: 2603.07659

1️⃣ 一句话总结

arXiv ID: 2603.02872

1️⃣ 一句话总结

arXiv ID: 2603.02557

1️⃣ 一句话总结

arXiv ID: 2603.02865

1️⃣ 一句话总结

arXiv ID: 2603.02609

1️⃣ 一句话总结

arXiv ID: 2603.02663

1️⃣ 一句话总结

arXiv ID: 2603.02618

1️⃣ 一句话总结

arXiv ID: 2603.02959

1️⃣ 一句话总结

arXiv ID: 2603.03278

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.07868 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.07659 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.02872 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.02557 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.02865 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.02609 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.02663 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.02618 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.02959 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.03278 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.07868

arXiv ID: 2603.07659

arXiv ID: 2603.02872

arXiv ID: 2603.02557

arXiv ID: 2603.02865

arXiv ID: 2603.02609

arXiv ID: 2603.02663

arXiv ID: 2603.02618

arXiv ID: 2603.02959

arXiv ID: 2603.03278