arXiv最新AI论文速览速学

🔍

标签: #vision-language model ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 39 72小时内新更新论文 72h更新 139 最新: World2VLM: Distilling World Model Imagination into VLMs for Dynamic Spatial Reasoning 04-30

arXiv ID: 2604.26934

arXiv 提交日期: 2026-04-29

multi-modal model training computer vision world model spatial reasoning vision-language model distillation egocentric motion

World2VLM：将世界模型的空间想象能力蒸馏到视觉语言模型中，用于动态空间推理 / World2VLM: Distilling World Model Imagination into VLMs for Dynamic Spatial Reasoning

1️⃣ 一句话总结

本文提出一种新训练框架World2VLM，通过让生成式世界模型在训练时“教”视觉语言模型如何预测视角变化后的场景，使后者在不增加运算负担的情况下，提升了动态空间推理能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.25231

arXiv 提交日期: 2026-04-28

multi-modal benchmark evaluation diagram question answering visual reasoning evidence grounding vision-language model localization

DRAGON：一个用于评估图表中基于证据的视觉推理的基准测试 / DRAGON: A Benchmark for Evidence-Grounded Visual Reasoning over Diagrams

1️⃣ 一句话总结

本文提出了一个名为DRAGON的基准测试，专门用来评估AI模型在理解图表（如图表、地图、电路图等）时，是否真的能找出并标注出那些支持其答案的关键视觉区域，而不仅仅是猜对答案，从而让图表推理过程更可靠、更透明。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.21082

arXiv 提交日期: 2026-04-22

medical multi-modal model training report generation vision-language model token reweighting data efficiency loss function

权衡重要内容：通过令牌重加权提升医学报告生成的样本效率 / Weighting What Matters: Boosting Sample Efficiency in Medical Report Generation via Token Reweighting

1️⃣ 一句话总结

本文提出了一种简单的加权损失函数方法，在医学报告生成中通过给关键临床词汇更高权重，使模型仅用十分之一的训练数据就能达到与标准方法相当的报告质量，大幅提升了数据利用效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.19632

arXiv 提交日期: 2026-04-21

computer vision machine learning aigc graphic design parsing raster-to-layer multi-branch diffusion vision-language model generative image parsing

CreatiParser：将光栅图形设计生成为可编辑图层的生成式图像解析 / CreatiParser: Generative Image Parsing of Raster Graphic Designs into Editable Layers

1️⃣ 一句话总结

该论文提出了一种名为CreatiParser的混合生成式框架，能够将光栅格式的平面设计图自动拆解为文本、背景和贴纸等独立可编辑的图层，并通过视觉语言模型和强化学习优化生成质量，相比现有方法在两项测试集上平均性能提升23.7%。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.14507

arXiv 提交日期: 2026-04-16

computer vision multi-modal model evaluation anomaly detection vision-language model few-shot learning hypergraph reasoning industrial inspection

H2VLR：用于少样本异常检测的异质超图视觉语言推理 / H2VLR: Heterogeneous Hypergraph Vision-Language Reasoning for Few-Shot Anomaly Detection

1️⃣ 一句话总结

这篇论文提出了一种名为H2VLR的新方法，它通过构建一个结合图像区域和文本概念的异质超图，将少样本异常检测问题转化为对视觉与语义关系的高阶推理，从而超越了传统基于简单特征匹配的方法，在工业和医疗图像检测任务中取得了领先的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.13788

arXiv 提交日期: 2026-04-15

robotics model evaluation machine learning imitation learning anomaly detection failure identification vision-language model conformal prediction

通过统计与语义过滤实现模仿学习中的故障识别 / Failure Identification in Imitation Learning Via Statistical and Semantic Filtering

1️⃣ 一句话总结

这篇论文提出了一个名为FIDeL的通用故障检测模块，它通过结合统计异常检测与大型视觉语言模型的语义理解，能够有效区分机器人模仿学习中的真正故障与无害的异常情况，从而显著提升了故障识别的准确性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.14388

arXiv 提交日期: 2026-04-15

multi-modal computer vision model evaluation food perception multisensory inference vision-language model dataset cross-modal prediction

FoodSense：一个用于从图像预测味觉、嗅觉、质地和声音的多感官食物数据集与基准 / FoodSense: A Multisensory Food Dataset and Benchmark for Predicting Taste, Smell, Texture, and Sound from Images

1️⃣ 一句话总结

这篇论文提出了一个名为FoodSense的数据集和基准模型，它能让AI通过看食物图片来预测和解释人对食物的味觉、嗅觉、口感和声音等多感官体验，而不仅仅是识别食物本身。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.12440

arXiv 提交日期: 2026-04-14

computer vision multi-modal model evaluation industrial anomaly detection vision-language model unified framework anomaly segmentation defect generation

IAD-Unify：一个用于工业异常分割、理解与生成的区域接地统一模型 / IAD-Unify: A Region-Grounded Unified Model for Industrial Anomaly Segmentation, Understanding, and Generation

1️⃣ 一句话总结

这篇论文提出了一个名为IAD-Unify的统一模型，它能够同时完成工业缺陷的定位分割、用自然语言解释缺陷原因，以及根据指令生成逼真的缺陷图像，并通过一个大型数据集验证了其有效性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.11042

arXiv 提交日期: 2026-04-13

computer vision model training data object detection annotation harmonization layout detection vision-language model representation learning

通过智能协调改进跨不一致标注数据集的布局表示学习 / Improving Layout Representation Learning Across Inconsistently Annotated Datasets via Agentic Harmonization

1️⃣ 一句话总结

这篇论文提出了一种智能标签协调方法，利用视觉语言模型在训练前统一不同数据集中类别和标注框的标准，从而有效提升了文档布局检测模型的性能，并改善了模型学习到的特征表示。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.06711

arXiv 提交日期: 2026-04-08

llm multi-modal computer vision oracle bone script vision-language model knowledge augmentation ancient script interpretation multimodal reasoning

通过基于组件的多模态知识增强，为甲骨文解读专门化大型模型 / Specializing Large Models for Oracle Bone Script Interpretation via Component-Grounded Multimodal Knowledge Augmentation

1️⃣ 一句话总结

这篇论文提出了一种结合视觉语言模型和大语言模型代理的新方法，通过识别甲骨文中可重复的象形部件并利用其语义进行推理，从而更准确、详细地解读这种古老文字，同时还创建了一个包含精细部件标注的新数据集来支持这一任务。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.26934

1️⃣ 一句话总结

arXiv ID: 2604.25231

1️⃣ 一句话总结

arXiv ID: 2604.21082

1️⃣ 一句话总结

arXiv ID: 2604.19632

1️⃣ 一句话总结

arXiv ID: 2604.14507

1️⃣ 一句话总结

arXiv ID: 2604.13788

1️⃣ 一句话总结

arXiv ID: 2604.14388

1️⃣ 一句话总结

arXiv ID: 2604.12440

1️⃣ 一句话总结

arXiv ID: 2604.11042

1️⃣ 一句话总结

arXiv ID: 2604.06711

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.26934 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.25231 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.21082 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.19632 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.14507 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.13788 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.14388 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.12440 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.11042 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.06711 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.26934

arXiv ID: 2604.25231

arXiv ID: 2604.21082

arXiv ID: 2604.19632

arXiv ID: 2604.14507

arXiv ID: 2604.13788

arXiv ID: 2604.14388

arXiv ID: 2604.12440

arXiv ID: 2604.11042

arXiv ID: 2604.06711