arXiv最新AI论文速览速学

🔍

标签: #vision-language models ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 166 72小时内新更新论文 72h更新 171 最新: Molecular Identifier Visual Prompt and Verifiable Reinforcement Learning for Chemical Reaction Diagram Parsing 03-17

arXiv ID: 2603.15011

arXiv 提交日期: 2026-03-16

computer vision multi-modal model training chemical diagram parsing vision-language models visual prompting reinforcement learning benchmark

用于化学反应图解析的分子标识符视觉提示与可验证强化学习 / Molecular Identifier Visual Prompt and Verifiable Reinforcement Learning for Chemical Reaction Diagram Parsing

1️⃣ 一句话总结

这篇论文通过引入分子标识符作为视觉提示来激活模型化学知识，并结合一种可验证的强化学习算法，有效提升了视觉语言模型在解析化学反应图时的准确性和泛化能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.15237

arXiv 提交日期: 2026-03-16

multi-modal computer vision model training vision-language models anomaly detection physics-informed instruction tuning causal reasoning

用于物理基础异常检测的多轮物理信息视觉语言模型 / Multi-turn Physics-informed Vision-language Model for Physics-grounded Anomaly Detection

1️⃣ 一句话总结

这项研究通过在多轮对话中融入物体属性、运动规律等物理知识，显著提升了通用视觉语言模型在检测违反物理规律的动态异常（如不规则旋转）方面的能力，使其性能远超现有最佳方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.15557

arXiv 提交日期: 2026-03-16

multi-modal model evaluation natural language processing hallucination detection vision-language models cognitive trajectory information-theoretic probes diagnostic framework

谎言的剖析：一个用于追踪视觉语言模型幻觉的多阶段诊断框架 / Anatomy of a Lie: A Multi-Stage Diagnostic Framework for Tracing Hallucinations in Vision-Language Models

1️⃣ 一句话总结

这篇论文提出了一种新方法，将视觉语言模型产生幻觉（即生成看似合理但事实错误的描述）的过程，看作是其内部“计算认知”的动态病理轨迹，并通过一个可解释的“认知状态空间”来检测和归因这些错误，从而让模型的推理过程更透明、可诊断。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.11975

arXiv 提交日期: 2026-03-12

multi-modal agents benchmark vision-language models safety evaluation embodied agents household robotics unsafe action detection

HomeSafe-Bench：评估视觉语言模型在家庭场景具身智能体不安全动作检测中的表现 / HomeSafe-Bench: Evaluating Vision-Language Models on Unsafe Action Detection for Embodied Agents in Household Scenarios

1️⃣ 一句话总结

这篇论文提出了一个专门用于测试AI家庭机器人安全性的新标准（HomeSafe-Bench），并设计了一个名为HD-Guard的双层智能监控系统，它通过‘快脑’快速筛查和‘慢脑’深度分析相结合的方式，在保证实时响应的同时，更准确地识别家庭环境中的危险动作。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.10877

arXiv 提交日期: 2026-03-11

multi-modal model training natural language processing knowledge distillation cross-modal learning vision-language models efficient training black-box teachers

从图像到文字：面向语言模型的高效跨模态知识蒸馏（来自黑盒教师模型） / From Images to Words: Efficient Cross-Modal Knowledge Distillation to Language Models from Black-box Teachers

1️⃣ 一句话总结

这篇论文提出了一个名为ARMADA的高效跨模态知识蒸馏框架，它能够将大型视觉-语言模型（包括无法获取内部结构的黑盒模型）的知识迁移到纯语言模型中，从而显著提升语言模型在理解和生成任务上的性能，且无需对教师模型进行昂贵的多模态预训练或微调。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.10578

arXiv 提交日期: 2026-03-11

computer vision multi-modal model evaluation vision-language models image quality assessment retrieval-augmented generation computer graphics benchmark

R4-CGQA：基于检索的视觉语言模型用于计算机图形图像质量评估 / R4-CGQA: Retrieval-based Vision Language Models for Computer Graphics Image Quality Assessment

1️⃣ 一句话总结

这项研究通过构建一个包含详细质量描述的计算机图形图像数据集，并设计一种基于检索增强的两阶段框架，显著提升了现有视觉语言模型在评估计算机图形图像细粒度质量方面的准确性和解释能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.10703

arXiv 提交日期: 2026-03-11

multi-modal computer vision natural language processing vision-language models pedestrian navigation segmentation depth estimation accessibility

WalkGPT：基于深度感知分割的视觉-语言对话模型，用于行人导航 / WalkGPT: Grounded Vision-Language Conversation with Depth-Aware Segmentation for Pedestrian Navigation

1️⃣ 一句话总结

这篇论文提出了一个名为WalkGPT的新模型，它能够理解街景图像，通过结合语言对话和图像分割技术，为行人（特别是行动不便者）提供准确、可靠的导航建议，指出哪些区域安全可通行、哪些存在障碍，并估算相对距离，同时还发布了一个包含大量街景图像和导航问答的数据集来支持相关研究。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.09771

arXiv 提交日期: 2026-03-10

multi-modal model training computer vision vision-language models personalization attention mechanisms concept extraction efficient fine-tuning

Ego：基于嵌入引导的视觉语言模型个性化方法 / Ego: Embedding-Guided Personalization of Vision-Language Models

1️⃣ 一句话总结

这篇论文提出了一种高效的方法，让通用视觉语言模型能记住并识别特定的人或物体，无需额外训练，只需利用模型内部的注意力机制提取关键视觉特征作为‘记忆’，就能在后续任务中快速实现个性化识别和描述。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.09160

arXiv 提交日期: 2026-03-10

computer vision natural language processing model training dense image captioning reinforcement learning vision-language models llm-guided evaluation reward modeling

RubiCap：基于评分标准的强化学习用于密集图像描述生成 / RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning

1️⃣ 一句话总结

这篇论文提出了一种名为RubiCap的新方法，它利用大型语言模型自动生成详细的评分标准来指导强化学习训练，从而在无需昂贵人工标注的情况下，高效地生成质量更高、更多样化的图像描述。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.09471

arXiv 提交日期: 2026-03-10

multi-modal benchmark model evaluation vision-language models remote sensing geospatial tasks earth observation vqa evaluation

OmniEarth：一个用于评估视觉语言模型在地理空间任务中表现的基准 / OmniEarth: A Benchmark for Evaluating Vision-Language Models in Geospatial Tasks

1️⃣ 一句话总结

这篇论文提出了一个名为OmniEarth的综合性基准测试，专门用于系统评估视觉语言模型在遥感与地球观测等复杂地理空间任务中的感知、推理和鲁棒性能力，揭示了现有模型在此领域的不足。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.15011

1️⃣ 一句话总结

arXiv ID: 2603.15237

1️⃣ 一句话总结

arXiv ID: 2603.15557

1️⃣ 一句话总结

arXiv ID: 2603.11975

1️⃣ 一句话总结

arXiv ID: 2603.10877

1️⃣ 一句话总结

arXiv ID: 2603.10578

1️⃣ 一句话总结

arXiv ID: 2603.10703

1️⃣ 一句话总结

arXiv ID: 2603.09771

1️⃣ 一句话总结

arXiv ID: 2603.09160

1️⃣ 一句话总结

arXiv ID: 2603.09471

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.15011 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.15237 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.15557 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.11975 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.10877 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.10578 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.10703 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.09771 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.09160 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.09471 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.15011

arXiv ID: 2603.15237

arXiv ID: 2603.15557

arXiv ID: 2603.11975

arXiv ID: 2603.10877

arXiv ID: 2603.10578

arXiv ID: 2603.10703

arXiv ID: 2603.09771

arXiv ID: 2603.09160

arXiv ID: 2603.09471