arXiv最新AI论文速览速学

🔍

标签: #vision language models ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 100 72小时内新更新论文 72h更新 100 最新: Once-For-All: A Train-Once and Select-Anytime Framework for Multimodal Instruction Tuning 05-27

arXiv ID: 2605.26761

arXiv 提交日期: 2026-05-26

machine learning multi-modal model training data selection multimodal instruction tuning vision language models transferable selector training efficiency

一次训练、随时选择：面向多模态指令微调的统一框架 / Once-For-All: A Train-Once and Select-Anytime Framework for Multimodal Instruction Tuning

1️⃣ 一句话总结

该论文提出一个名为OFA的多模态指令数据选择框架，通过仅训练一次轻量级选择器，即可无需重新计算地适用于不同数据集和不同视觉语言模型，仅用15%的数据就能达到甚至超过全量数据训练的模型性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.11225

arXiv 提交日期: 2026-04-13

natural language processing computer vision multi-modal sign language recognition vision language models zero-shot learning visual-semantic alignment benchmark evaluation

大语言模型时代的手语识别 / Sign Language Recognition in the Age of LLMs

1️⃣ 一句话总结

这篇论文研究了当前先进的视觉语言模型是否能在不经过专门训练的情况下，直接识别孤立的手语动作，结果发现虽然大型专有模型表现尚可，但开源模型在零样本设置下仍远不如传统的有监督分类器。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.27960

arXiv 提交日期: 2026-03-30

multi-modal model training model evaluation vision language models efficient inference attention optimization computational efficiency survey

大型视觉语言模型的高效推理 / Efficient Inference of Large Vision Language Models

1️⃣ 一句话总结

这篇综述论文系统梳理了当前加速大型视觉语言模型推理的各种前沿技术，将其归纳为四大优化方向，并指出了现有方法的局限性与未来研究的关键挑战。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.27341

arXiv 提交日期: 2026-03-28

medical computer vision model evaluation surgical ai vision language models tool detection dataset constraints scaling limitations

外科人工智能比较研究：数据集、基础模型与迈向医疗通用人工智能的障碍 / A Comparative Study in Surgical AI: Datasets, Foundation Models, and Barriers to Med-AGI

1️⃣ 一句话总结

这篇论文通过神经外科手术工具检测的案例研究发现，尽管投入了海量数据和巨大算力，当前最先进的视觉语言模型在看似简单的外科任务上仍表现不佳，表明仅靠扩大模型规模无法解决外科AI面临的核心障碍，并探讨了数据标注和专业性等更深层的限制因素。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.23190

arXiv 提交日期: 2026-03-24

multi-modal computer vision model training vision language models eye gaze egocentric vision attention regularization behavior understanding

用于第一人称行为理解的视线正则化视觉语言模型 / Gaze-Regularized VLMs for Ego-Centric Behavior Understanding

1️⃣ 一句话总结

这项研究提出了一种将人眼视线信息融入视觉语言模型的新方法，通过让模型学习并模仿人的注意力模式，显著提升了模型在第一人称视角下预测未来行为和描述动作细节的能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.09206

arXiv 提交日期: 2026-03-10

multi-modal model training agents vision language models self-evolution reinforcement learning zero-shot learning multimodal reasoning

MM-Zero：从零数据出发的自进化多模型视觉语言模型 / MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data

1️⃣ 一句话总结

这篇论文提出了一个名为MM-Zero的新框架，它能让视觉语言模型在没有初始图像数据的情况下，通过让一个基础模型扮演提议者、编码者和解答者三个不同角色进行自我协作与进化，从而显著提升其在多模态推理任务上的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.08930

arXiv 提交日期: 2026-03-09

computer vision natural language processing multi-modal vision language models digital twins agriculture in-context learning 3d reconstruction

利用视觉语言基础模型通过上下文学习生成植物仿真配置 / Using Vision Language Foundation Models to Generate Plant Simulation Configurations via In-Context Learning

1️⃣ 一句话总结

这项研究首次提出利用先进的视觉语言模型，根据无人机遥感图像直接生成植物三维仿真的结构化参数，为农业数字孪生提供了一种可扩展的新方法，但模型性能会受到上下文偏见和视觉线索不足的影响。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.22683

arXiv 提交日期: 2026-02-26

multi-modal benchmark agents vision language models smart glasses visual question answering egocentric vision retrieval-augmented generation

SUPERGLASSES：将视觉语言模型作为智能眼镜智能代理的基准测试 / SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

1️⃣ 一句话总结

这篇论文提出了首个基于真实智能眼镜数据构建的视觉问答基准测试SUPERGLASSES，并设计了一个名为SUPERLENS的新型智能眼镜代理，该代理通过整合目标检测和网络搜索，在回答问题时超越了GPT-4o等现有模型，为解决智能眼镜场景下的特定挑战提供了新方案。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.15183

arXiv 提交日期: 2026-02-16

llm natural language processing model training vision language models binding shortcuts generalization interpretability cross-modal training

视觉助力泛化：视觉数据如何纠正绑定捷径 / Seeing to Generalize: How Visual Data Corrects Binding Shortcuts

1️⃣ 一句话总结

这篇论文发现，给大语言模型加入视觉训练后，不仅能处理图像，还能提升其在纯文本任务（尤其是长文本信息检索）上的泛化能力，因为视觉训练打破了模型依赖位置捷径的坏习惯，迫使它学会更稳健的符号绑定机制。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.08346

arXiv 提交日期: 2026-02-09

multi-modal model evaluation benchmark process reward models vision language models visual reasoning reasoning trajectories evaluation benchmark

揭示什么、是否以及如何？为图像推理思维构建过程奖励模型 / What, Whether and How? Unveiling Process Reward Models for Thinking with Images Reasoning

1️⃣ 一句话总结

这篇论文针对大型视觉语言模型在‘图像思维’推理中容易出错的问题，首次创建了一个专门的评估基准，揭示了现有模型难以准确评判推理过程，并指出了未来改进方向。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2605.26761

1️⃣ 一句话总结

arXiv ID: 2604.11225

1️⃣ 一句话总结

arXiv ID: 2603.27960

1️⃣ 一句话总结

arXiv ID: 2603.27341

1️⃣ 一句话总结

arXiv ID: 2603.23190

1️⃣ 一句话总结

arXiv ID: 2603.09206

1️⃣ 一句话总结

arXiv ID: 2603.08930

1️⃣ 一句话总结

arXiv ID: 2602.22683

1️⃣ 一句话总结

arXiv ID: 2602.15183

1️⃣ 一句话总结

arXiv ID: 2602.08346

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2605.26761 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.11225 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.27960 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.27341 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.23190 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.09206 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.08930 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.22683 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.15183 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.08346 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2605.26761

arXiv ID: 2604.11225

arXiv ID: 2603.27960

arXiv ID: 2603.27341

arXiv ID: 2603.23190

arXiv ID: 2603.09206

arXiv ID: 2603.08930

arXiv ID: 2602.22683

arXiv ID: 2602.15183

arXiv ID: 2602.08346