arXiv最新AI论文速览速学

🔍

标签: #vision-language model ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 100 72小时内新更新论文 72h更新 100 最新: FusionRS: A Large-Scale RGB-Infrared Remote Sensing Dataset for Dual-Modal Vision-Language Foundation Models 06-22

arXiv ID: 2605.21132

arXiv 提交日期: 2026-05-20

multi-modal video medical surgical video vision-language model real-time workflow understanding streaming

SurgOnAir：具有层级感知能力的实时手术视频解说 / SurgOnAir: Hierarchy-Aware Real-Time Surgical Video Commentary

1️⃣ 一句话总结

该论文提出了一种名为SurgOnAir的流式视觉语言模型，它能像直播解说一样，实时逐帧分析手术视频，并同步生成从动作、步骤到阶段的多层级文字描述，从而让AI系统能即时感知并响应手术过程中的细微变化与关键转折。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.21479

arXiv 提交日期: 2026-05-20

natural language processing computer vision benchmark vqa knowledge-grounded vision-language model image-question-answer human-curated

WikiVQABench：基于维基百科和维基数据的知识驱动视觉问答基准 / WikiVQABench: A Knowledge-Grounded Visual Question Answering Benchmark from Wikipedia and Wikidata

1️⃣ 一句话总结

本文提出了一个名为WikiVQABench的视觉问答基准数据集，它通过结合维基百科图片、文字说明和维基百科的结构化知识，精心设计了需要外部常识才能回答的题目，用来检验AI模型在理解图片时能否运用背景知识进行推理，而不仅仅是识别图像内容。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.10887

arXiv 提交日期: 2026-05-11

computer vision machine learning data object counting multi-grained counting dataset vision-language model benchmark

在任何粒度下数任何东西 / Count Anything at Any Granularity

1️⃣ 一句话总结

本文提出了一种新的多粒度开放世界计数方法，通过明确指定计数对象的语义粒度（从具体实体到抽象概念），并利用自动合成数据集和视觉-语言模型，显著提升了在复杂场景下准确数出用户所指事物的能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.09827

arXiv 提交日期: 2026-05-11

computer vision natural language processing multi-modal attribute extraction fashion vision-language model lora fine-tuning structured output

时尚佛罗伦萨：微调Florence-2实现结构化时尚属性提取 / Fashion Florence: Fine-Tuning Florence-2 for Structured Fashion Attribute Extraction

1️⃣ 一句话总结

本文通过LoRA微调Florence-2视觉语言模型，开发出能直接从服装照片中提取类别、颜色、材质等结构化JSON数据的轻量级AI系统，在更小参数规模下超越了GPT-4o等大型模型的提取精度，并已集成到开源服装推荐系统中。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.04882

arXiv 提交日期: 2026-05-06

medical multi-modal model training fairness glaucoma detection vision-language model debiasing clinical notes

FairEnc：一种用于青光眼检测的公平视觉与文本编码器视觉-语言模型 / FairEnc: A Fair Vision-Language Model with Fair Vision and Text Encoders for Glaucoma Detection

1️⃣ 一句话总结

本文提出一种名为FairEnc的预训练方法，通过同时消除视觉和文本编码器中的种族、性别、民族和语言等敏感属性偏见，使得用于青光眼检测的视觉-语言模型在保持良好诊断准确率的同时，显著提升对不同人群的公平性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.02604

arXiv 提交日期: 2026-05-04

computer vision machine learning domain adaptation source-free vision-language model distillation

重新思考源模型的需求：由视觉语言模型引导的从零开始的无源域适应 / Rethinking the Need for Source Models: Source-Free Domain Adaptation from Scratch Guided by a Vision-Language Model

1️⃣ 一句话总结

本文提出了一种全新的域适应方法，不再依赖训练好的源模型，而是仅凭随机初始化的模型、一个通用视觉语言模型和未标记的目标数据，就能获得与现有最好方法相当甚至更好的效果，从而大幅简化了模型适应新场景的流程。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.05241

arXiv 提交日期: 2026-05-03

robotics machine learning sim-to-real dexterous manipulation vision-language model domain randomization reinforcement learning

DexSim2Real：基于基础模型的灵巧操作仿真到现实迁移框架 / DexSim2Real: Foundation Model-Guided Sim-to-Real Transfer for Generalizable Dexterous Manipulation

1️⃣ 一句话总结

本文提出一个名为DexSim2Real的集成框架，通过结合视觉-语言基础模型自动优化仿真参数、设计触觉-视觉交叉注意力策略以及构建渐进式技能课程，显著提升了灵巧操作任务从仿真到现实迁移的泛化能力，在六个复杂任务中实现了78.2%的平均真实世界成功率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.26934

arXiv 提交日期: 2026-04-29

multi-modal model training computer vision world model spatial reasoning vision-language model distillation egocentric motion

World2VLM：将世界模型的空间想象能力蒸馏到视觉语言模型中，用于动态空间推理 / World2VLM: Distilling World Model Imagination into VLMs for Dynamic Spatial Reasoning

1️⃣ 一句话总结

本文提出一种新训练框架World2VLM，通过让生成式世界模型在训练时“教”视觉语言模型如何预测视角变化后的场景，使后者在不增加运算负担的情况下，提升了动态空间推理能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.25231

arXiv 提交日期: 2026-04-28

multi-modal benchmark evaluation diagram question answering visual reasoning evidence grounding vision-language model localization

DRAGON：一个用于评估图表中基于证据的视觉推理的基准测试 / DRAGON: A Benchmark for Evidence-Grounded Visual Reasoning over Diagrams

1️⃣ 一句话总结

本文提出了一个名为DRAGON的基准测试，专门用来评估AI模型在理解图表（如图表、地图、电路图等）时，是否真的能找出并标注出那些支持其答案的关键视觉区域，而不仅仅是猜对答案，从而让图表推理过程更可靠、更透明。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.21082

arXiv 提交日期: 2026-04-22

medical multi-modal model training report generation vision-language model token reweighting data efficiency loss function

权衡重要内容：通过令牌重加权提升医学报告生成的样本效率 / Weighting What Matters: Boosting Sample Efficiency in Medical Report Generation via Token Reweighting

1️⃣ 一句话总结

本文提出了一种简单的加权损失函数方法，在医学报告生成中通过给关键临床词汇更高权重，使模型仅用十分之一的训练数据就能达到与标准方法相当的报告质量，大幅提升了数据利用效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2605.21132

1️⃣ 一句话总结

arXiv ID: 2605.21479

1️⃣ 一句话总结

arXiv ID: 2605.10887

1️⃣ 一句话总结

arXiv ID: 2605.09827

1️⃣ 一句话总结

arXiv ID: 2605.04882

1️⃣ 一句话总结

arXiv ID: 2605.02604

1️⃣ 一句话总结

arXiv ID: 2605.05241

1️⃣ 一句话总结

arXiv ID: 2604.26934

1️⃣ 一句话总结

arXiv ID: 2604.25231

1️⃣ 一句话总结

arXiv ID: 2604.21082

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2605.21132 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.21479 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.10887 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.09827 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.04882 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.02604 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.05241 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.26934 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.25231 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.21082 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2605.21132

arXiv ID: 2605.21479

arXiv ID: 2605.10887

arXiv ID: 2605.09827

arXiv ID: 2605.04882

arXiv ID: 2605.02604

arXiv ID: 2605.05241

arXiv ID: 2604.26934

arXiv ID: 2604.25231

arXiv ID: 2604.21082