arXiv最新AI论文速览速学

🔍

标签: #vision-language models ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 50 72小时内新更新论文 72h更新 50 最新: Domain Generalizable Adaptation of 3D Vision-Language Models via Regularized Fine-Tuning 06-22

arXiv ID: 2606.18472

arXiv 提交日期: 2026-06-16

multi-modal 3d vision machine learning domain generalization regularized fine-tuning vision-language models point cloud adaptation

基于正则化微调的3D视觉-语言模型领域泛化适应 / Domain Generalizable Adaptation of 3D Vision-Language Models via Regularized Fine-Tuning

1️⃣ 一句话总结

本文提出了一种名为ReFine3D的微调框架，通过选择性地调整模型层并引入两种正则化策略——确保不同视角点云的一致性，以及利用同义词替换增强文本多样性——使得3D多模态模型在数据有限的场景下既能适应新任务，又不会遗忘原有能力，最终在多项测试中提升了模型对新类别、新数据集和干扰情况的泛化性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.12925

arXiv 提交日期: 2026-06-11

multi-modal model evaluation machine learning test-time adaptation multi-label recognition bayesian inference distribution shift vision-language models

基于贝叶斯条件先验的多标签测试时自适应 / Multi-Label Test-Time Adaptation with Bayesian Conditional Priors

1️⃣ 一句话总结

本文提出了一种名为BCP的轻量级测试时自适应方法，无需重新训练模型，仅通过在线估计标签共现关系并利用贝叶斯推理修正预测结果，就能让冻结的视觉语言模型在多标签识别任务中显著提升对数据分布变化的鲁棒性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.09428

arXiv 提交日期: 2026-06-08

agents multi-modal benchmark crisis communication vision-language models evacuation simulation communication strategy environment representation

引导我出去：一个用于评估危机场景中视觉语言模型操作员沟通能力的基准框架 / Guide Me Out: A Framework to Benchmark VLM Operators Communication in Crisis Scenarios

1️⃣ 一句话总结

该论文提出了一个评估视觉语言模型（VLM）在模拟疏散中引导平民的基准框架，发现定向通讯比广播更有效，视觉信息比附加地图更有助于提升引导效果，而移动威胁则显著增加了任务失败率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.08959

arXiv 提交日期: 2026-06-08

multi-modal benchmark machine learning visual question answering cultural reasoning heritage understanding bilingual vqa vision-language models

ChinaHeritaQA：面向中国世界遗产的文化视觉问答数据集 / ChinaHeritaQA: A Culturally-Grounded Visual Question Answering Dataset for World Heritage Sites in China

1️⃣ 一句话总结

该论文构建了一个包含中国世界遗产图像和双语问答对的多模态基准数据集，评估了视觉语言模型在文化推理上的能力，发现现有模型虽擅长视觉识别，但在理解历史、朝代等深层文化知识方面仍有明显不足。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.05753

arXiv 提交日期: 2026-06-04

multi-modal model evaluation vision-language models latent visual reasoning cosine similarity information bottleneck auxiliary loss

余弦相似度误导：辅助损失重塑视觉语言模型，而非其潜在表示 / Cosine Misleads: Auxiliary Losses Reshape Vision Language Models, Not Their Latents

1️⃣ 一句话总结

本文发现，在视觉语言模型中使用余弦相似度或均方误差作为辅助损失来优化潜在视觉推理，并不能真正提升模型答案的准确性——因为模型实际上会绕过这些潜在表示，辅助损失反而通过共享参数间接改写了语言模型本身，而非其预期的潜在变量。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.05702

arXiv 提交日期: 2026-06-04

multi-modal benchmark vision-language models chronological reasoning shortcut bias evaluation

看见时间：视觉语言模型中的时间顺序推理与捷径偏误基准测试 / Seeing Time: Benchmarking Chronological Reasoning and Shortcut Biases in Vision-Language Models

1️⃣ 一句话总结

该论文构建了一套专门用于评估视觉语言模型时间顺序推理能力的新基准，通过多组不同难度的图像数据集和跨模态匹配任务，发现模型常常依赖颜色等表面线索而非真正的时间逻辑来作出判断，揭示了当前模型在理解图像先后顺序上存在的严重局限。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.04773

arXiv 提交日期: 2026-06-03

benchmark model evaluation multi-modal human motion understanding vision-language models question answering video captioning error correction

NextMotionQA：使用视觉-语言模型基准测试与评判人体运动理解 / NextMotionQA: Benchmarking and Judging Human Motion Understanding with Vision-Language Models

1️⃣ 一句话总结

本文提出了 NextMotionQA 基准测试，通过多项选择题、视频描述和细粒度纠错三种任务，系统评估视觉-语言模型对人体运动的理解能力，并揭示了模型在简单任务上表现尚可、但在精细部件级别判断上严重失效的局限。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.04613

arXiv 提交日期: 2026-06-03

multi-modal medical model evaluation vision-language models modality imbalance alignment metric spectral analysis benchmark

超越对称对齐：医学领域视觉-语言模型中模态失衡的光谱诊断方法 / Beyond Symmetric Alignment: Spectral Diagnostics of Modality Imbalance in Vision-Language Models in the Medical Domain

1️⃣ 一句话总结

本文提出了一种名为光谱对齐分数（SAS）的非对称评估指标，通过分析图像和文本在主导模态特征空间中的相关性差异，揭示了医学视觉-语言模型中图像信息远丰富于对应文本报告这一关键问题，且该指标无需标注数据就能准确预测模型在医学检索任务中的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.30231

arXiv 提交日期: 2026-05-28

multi-modal computer vision llm 3d spatial reasoning vision-language models geometric priors point correspondences depth consistency

超越3D视觉问答：将3D空间先验注入视觉语言模型以增强几何推理能力 / Beyond 3D VQAs: Injecting 3D Spatial Priors into Vision-Language Models for Enhanced Geometric Reasoning

1️⃣ 一句话总结

本文提出了一种名为GASP的新框架，通过向大型语言模型的各层注入基础的几何先验（如点对应关系和深度一致性），而无需依赖专门的3D问答数据集，显著提升了视觉语言模型在3D空间推理任务上的表现，例如在空间基准测试上取得了高达29%的性能提升。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.30140

arXiv 提交日期: 2026-05-28

multi-modal machine learning anomaly detection zero-shot learning few-shot learning vision-language models agentic framework

AnomalyAgent：用于零样本/少样本异常检测的无训练智能体模型 / AnomalyAgent: Training-Free Agentic Models for Zero-/Few-Shot Anomaly Detection

1️⃣ 一句话总结

本文提出了一种名为AnomalyAgent的新型智能体框架，它利用多模态大语言模型的推理能力，无需额外训练即可检测简单和复杂的异常（如逻辑或上下文异常），相比传统方法在零样本和少样本场景下泛化能力更强。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.18472

1️⃣ 一句话总结

arXiv ID: 2606.12925

1️⃣ 一句话总结

arXiv ID: 2606.09428

1️⃣ 一句话总结

arXiv ID: 2606.08959

1️⃣ 一句话总结

arXiv ID: 2606.05753

1️⃣ 一句话总结

arXiv ID: 2606.05702

1️⃣ 一句话总结

arXiv ID: 2606.04773

1️⃣ 一句话总结

arXiv ID: 2606.04613

1️⃣ 一句话总结

arXiv ID: 2605.30231

1️⃣ 一句话总结

arXiv ID: 2605.30140

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.18472 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.12925 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.09428 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.08959 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.05753 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.05702 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.04773 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.04613 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.30231 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.30140 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.18472

arXiv ID: 2606.12925

arXiv ID: 2606.09428

arXiv ID: 2606.08959

arXiv ID: 2606.05753

arXiv ID: 2606.05702

arXiv ID: 2606.04773

arXiv ID: 2606.04613

arXiv ID: 2605.30231

arXiv ID: 2605.30140