arXiv最新AI论文速览速学

🔍

标签: #vision-language models ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 39 72小时内新更新论文 72h更新 139 最新: Auditing Frontier Vision-Language Models for Trustworthy Medical VQA: Grounding Failures, Format Collapse, and Domain Adaptation 05-02

arXiv ID: 2603.17246

arXiv 提交日期: 2026-03-18

medical multi-modal model evaluation vision-language models modality gap medical imaging representation learning embedding analysis

论医学视觉-语言嵌入中的锥体效应与模态鸿沟 / On the Cone Effect and Modality Gap in Medical Vision-Language Embeddings

1️⃣ 一句话总结

这篇论文研究发现，在医学视觉-语言模型中，图像和文本特征之间的差异（模态鸿沟）并非越小越好，通过一个简单方法调节这个差异的大小，可以找到最适合具体医学任务的最佳状态，从而提升模型性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.17372

arXiv 提交日期: 2026-03-18

multi-modal model evaluation natural language processing vision-language models jailbreak attacks representation shift safety alignment adversarial defense

理解与防御视觉语言模型的越狱攻击：基于越狱相关表征偏移的分析 / Understanding and Defending VLM Jailbreaks via Jailbreak-Related Representation Shift

1️⃣ 一句话总结

这篇论文发现，视觉语言模型之所以容易被图片诱导产生有害回复，不是因为模型识别不出有害意图，而是因为视觉输入会将模型的内部表征推向一个特定的‘越狱状态’，从而绕过安全机制；基于此，作者提出了一种通过移除这种‘越狱相关偏移’来有效防御攻击的方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.17809

arXiv 提交日期: 2026-03-18

model training multi-modal machine learning post-training quantization vision-language models integrated gradients token-level sensitivity model compression

基于量化感知积分梯度的大型视觉语言模型细粒度训练后量化 / Fine-Grained Post-Training Quantization for Large Vision Language Models with Quantization-Aware Integrated Gradients

1️⃣ 一句话总结

这篇论文提出了一种新的量化方法，通过分析模型内部每个‘词元’对量化误差的敏感度，而非笼统地按‘图像’或‘文本’模态来处理，从而在显著压缩大型视觉语言模型、提升运行速度的同时，更有效地保持了模型的精度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.17390

arXiv 提交日期: 2026-03-18

computer vision model training multi-modal material classification vision-language models synthetic data generation auto-labeling fine-tuning

利用基础模型提升材料分类的准确性 / Harnessing the Power of Foundation Models for Accurate Material Classification

1️⃣ 一句话总结

这篇论文提出了一种新方法，通过自动生成高质量训练数据和融合视觉语言模型的先验知识，有效解决了材料分类任务中数据稀缺的难题，显著提升了分类的准确性和泛化能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.16987

arXiv 提交日期: 2026-03-17

multi-modal model training systems vision-language models inference efficiency latency optimization compact models model serving

高效紧凑视觉语言模型的实用优化方案 / Empirical Recipes for Efficient and Compact Vision-Language Models

1️⃣ 一句话总结

这篇论文通过系统分析发现，小型视觉语言模型的实际推理速度远低于预期，并据此提出了一套实用的优化方案，能显著降低模型响应延迟而不损失精度，同时展示了如何为这类紧凑模型扩展结构化视觉感知能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.17024

arXiv 提交日期: 2026-03-17

multi-modal model training vision-language models chain-of-thought data synthesis reasoning reinforcement learning benchmark

HopChain：用于提升视觉语言推理泛化能力的多跳数据合成框架 / HopChain: Multi-Hop Data Synthesis for Generalizable Vision-Language Reasoning

1️⃣ 一句话总结

这篇论文提出了一个名为HopChain的框架，通过自动合成需要多步逻辑推理的视觉语言数据来训练模型，有效提升了视觉语言模型在复杂、长链条推理任务上的泛化能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.16284

arXiv 提交日期: 2026-03-17

llm multi-modal model evaluation visual hallucination feature steering causal attribution layerwise sparsity vision-language models

先定位后稀疏化：一种用于缓解视觉幻觉的归因引导稀疏策略 / Locate-then-Sparsify: Attribution Guided Sparse Strategy for Visual Hallucination Mitigation

1️⃣ 一句话总结

这篇论文提出了一种名为LTS-FS的即插即用框架，它通过量化大视觉语言模型中每一层与幻觉问题的关联程度，从而有针对性地调整这些层的特征，在有效减少模型幻觉的同时，不影响其完成其他一般任务的能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.16092

arXiv 提交日期: 2026-03-17

multi-modal model evaluation machine learning in-context learning vision-language models inference acceleration ensemble learning computational efficiency

大型视觉语言模型的并行上下文学习 / Parallel In-context Learning for Large Vision Language Models

1️⃣ 一句话总结

本文提出了一种名为‘并行上下文学习’的新方法，通过将长示例拆分成多个短片段并行处理再智能整合，让大型视觉语言模型在保持高准确率的同时，大幅提升了任务适应时的推理速度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.15166

arXiv 提交日期: 2026-03-16

model training computer vision multi-modal knowledge distillation vision-language models fine-grained classification model compression intermediate teacher

DAIT：从视觉语言模型到轻量级分类器的自适应中间教师迁移蒸馏 / DAIT: Distillation from Vision-Language Models to Lightweight Classifiers with Adaptive Intermediate Teacher Transfer

1️⃣ 一句话总结

这篇论文提出了一种名为DAIT的新方法，通过引入一个可学习的‘中间教师’来巧妙地压缩大型视觉语言模型的知识，从而让轻量级的小模型也能高效、准确地完成细粒度图像分类任务。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.16001

arXiv 提交日期: 2026-03-16

multi-modal model training machine learning network pruning vision-language models modality-specific pruning model compression asymmetric pruning

以文本为主，视觉为辅：面向大型视觉语言模型的不对称文本-视觉剪枝方法 / Mostly Text, Smart Visuals: Asymmetric Text-Visual Pruning for Large Vision-Language Models

1️⃣ 一句话总结

这篇论文提出了一种名为ATV-Pruning的新方法，通过发现并利用文本和视觉信息在大型视觉语言模型中不同的重要性，对文本部分进行精细保护、对冗余的视觉部分进行大幅压缩，从而更高效、更准确地实现模型轻量化。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.17246

1️⃣ 一句话总结

arXiv ID: 2603.17372

1️⃣ 一句话总结

arXiv ID: 2603.17809

1️⃣ 一句话总结

arXiv ID: 2603.17390

1️⃣ 一句话总结

arXiv ID: 2603.16987

1️⃣ 一句话总结

arXiv ID: 2603.17024

1️⃣ 一句话总结

arXiv ID: 2603.16284

1️⃣ 一句话总结

arXiv ID: 2603.16092

1️⃣ 一句话总结

arXiv ID: 2603.15166

1️⃣ 一句话总结

arXiv ID: 2603.16001

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.17246 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.17372 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.17809 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.17390 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.16987 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.17024 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.16284 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.16092 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.15166 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.16001 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.17246

arXiv ID: 2603.17372

arXiv ID: 2603.17809

arXiv ID: 2603.17390

arXiv ID: 2603.16987

arXiv ID: 2603.17024

arXiv ID: 2603.16284

arXiv ID: 2603.16092

arXiv ID: 2603.15166

arXiv ID: 2603.16001