arXiv最新AI论文速览速学

🔍

标签: #vision-language models ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 142 72小时内新更新论文 72h更新 147 最新: Multi-turn Physics-informed Vision-language Model for Physics-grounded Anomaly Detection 03-17

arXiv ID: 2602.20873

arXiv 提交日期: 2026-02-24

medical computer vision multi-modal computational pathology few-shot learning vision-language models whole slide image semantic enhancement

MUSE：利用精确且多样化的语义进行少样本全切片图像分类 / MUSE: Harnessing Precise and Diverse Semantics for Few-Shot Whole Slide Image Classification

1️⃣ 一句话总结

这篇论文提出了一种名为MUSE的新方法，它通过为每个病理图像样本生成精细化的语义描述，并动态引入多样化的文本知识进行训练，从而在标注数据极少的情况下，显著提升了全切片病理图像的分类效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.20543

arXiv 提交日期: 2026-02-24

medical computer vision multi-modal quality control colony detection vision-language models pharmaceutical manufacturing multi-agent system

超越人类表现：一种用于药品生产质量控制的视觉-语言多智能体方法 / Beyond Human Performance: A Vision-Language Multi-Agent Approach for Quality Control in Pharmaceutical Manufacturing

1️⃣ 一句话总结

这篇论文提出了一种结合深度学习与视觉语言模型的多智能体系统，用于自动检测药品生产中的菌落数量，不仅将人工复核工作量减少了85%，还通过专家反馈实现自我改进，为制药行业提供了一个高精度、可扩展且符合监管要求的自动化质量控制方案。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.21186

arXiv 提交日期: 2026-02-24

computer vision multi-modal model training 3d visual reasoning spatial representation vision-language models self-supervised learning feature fields

Spa3R：用于三维视觉推理的预测性空间场建模 / Spa3R: Predictive Spatial Field Modeling for 3D Visual Reasoning

1️⃣ 一句话总结

这篇论文提出了一种名为Spa3R的自监督学习框架，它仅从二维多视角图像中就能学习到统一且视角不变的三维空间表征，并通过一个轻量级适配器将这种空间理解能力赋予现有视觉语言模型，从而在三维视觉问答任务上取得了领先的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.21035

arXiv 提交日期: 2026-02-24

natural language processing computer vision multi-modal negation understanding vision-language models clip zero-shot generalization semantic disentanglement

不止于所见：无需微调，让CLIP理解带否定的视觉描述 / Not Just What's There: Enabling CLIP to Comprehend Negated Visual Descriptions Without Fine-tuning

1️⃣ 一句话总结

这篇论文提出了一个名为CLIPGlasses的即插即用框架，它通过一个解耦否定语义的‘镜片’模块和一个预测排斥强度的‘镜框’模块，巧妙地提升了CLIP模型对图像中‘没有什么’（如‘没有狗’）这类否定描述的理解能力，无需重新训练模型就能在跨领域任务中表现更优、更稳健。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.19449

arXiv 提交日期: 2026-02-23

multi-modal model training machine learning vision-language models domain adaptation discrete representations fine-tuning codebook learning

解耦视觉与语言：基于码本锚定的视觉适配 / Decoupling Vision and Language: Codebook Anchored Visual Adaptation

1️⃣ 一句话总结

这篇论文提出了一种名为CRAFT的轻量级方法，通过使用一个离散码本将视觉表示锚定在稳定的符号空间中，从而让大型视觉语言模型在不修改其他部分的情况下，高效地适应医学图像诊断等特定领域任务，并显著提升其性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.19570

arXiv 提交日期: 2026-02-23

multi-modal model evaluation systems adversarial defense vision-language models attack detection efficiency image transformation

VALD：用于高效LVLM防御的多阶段视觉攻击检测 / VALD: Multi-Stage Vision Attack Detection for Efficient LVLM Defense

1️⃣ 一句话总结

这篇论文提出了一种名为VALD的高效防御方法，它通过一个多阶段的检测流程来保护大型视觉语言模型免受对抗性图像攻击，其核心思想是先用低成本操作快速过滤掉大部分正常图像，只在必要时才调用复杂模型进行分析，从而在保证高准确率的同时显著降低了计算开销。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.20323

arXiv 提交日期: 2026-02-23

robotics agents model evaluation physical reasoning test-time learning memory framework vision-language models robot manipulation

通过交互学习物理原理：基于测试时记忆的自进化规划 / Learning Physical Principles from Interaction: Self-Evolving Planning via Test-Time Memory

1️⃣ 一句话总结

这篇论文提出了一个名为PhysMem的记忆框架，它能让机器人像人一样，在实际操作中通过‘动手试错’来学习具体的物理规律（比如不同球的滚动方式或石头的稳定性），并将验证过的经验转化为知识库，从而在环境变化时做出更灵活、更可靠的决策，而不是死记硬背过去的经验。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.20119

arXiv 提交日期: 2026-02-23

robotics multi-modal agents long-horizon manipulation vision-language models video planning zero-shot learning hierarchical planning

NovaPlan：通过闭环视频语言规划实现零样本长程操作 / NovaPlan: Zero-Shot Long-Horizon Manipulation via Closed-Loop Video Language Planning

1️⃣ 一句话总结

这篇论文提出了一个名为NovaPlan的分层机器人框架，它结合了视觉语言模型和视频生成模型进行任务分解与规划，并利用从视频中提取的关键点信息来指导机器人动作，从而无需额外训练就能完成复杂的长程操作任务并自主纠正执行错误。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.17535

arXiv 提交日期: 2026-02-19

medical multi-modal model evaluation conformal prediction domain adaptation uncertainty quantification vision-language models transductive learning

LATA：用于医学视觉语言模型置信度预测的拉普拉斯辅助直推式适应方法 / LATA: Laplacian-Assisted Transductive Adaptation for Conformal Uncertainty in Medical VLMs

1️⃣ 一句话总结

本文提出了一种名为LATA的新方法，它能在不重新训练模型、也几乎不需要额外标注的情况下，有效提升医学视觉语言模型在陌生数据上预测结果的可信度，使其预测更准确、更稳定。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.17594

arXiv 提交日期: 2026-02-19

benchmark model evaluation agents general game playing evaluation platform vision-language models human-like intelligence scalable testing

AI游戏商店：通过人类游戏对机器通用智能进行可扩展、开放式的评估 / AI Gamestore: Scalable, Open-Ended Evaluation of Machine General Intelligence with Human Games

1️⃣ 一句话总结

这篇论文提出了一个名为‘AI游戏商店’的新评估平台，通过让AI系统学习和游玩大量由人类设计、为人类设计的游戏，来更全面、动态地衡量其是否具备接近人类的通用智能，初步测试表明当前顶尖模型在大多数游戏上的表现远不及人类平均水平。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2602.20873

1️⃣ 一句话总结

arXiv ID: 2602.20543

1️⃣ 一句话总结

arXiv ID: 2602.21186

1️⃣ 一句话总结

arXiv ID: 2602.21035

1️⃣ 一句话总结

arXiv ID: 2602.19449

1️⃣ 一句话总结

arXiv ID: 2602.19570

1️⃣ 一句话总结

arXiv ID: 2602.20323

1️⃣ 一句话总结

arXiv ID: 2602.20119

1️⃣ 一句话总结

arXiv ID: 2602.17535

1️⃣ 一句话总结

arXiv ID: 2602.17594

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2602.20873 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.20543 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.21186 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.21035 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.19449 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.19570 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.20323 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.20119 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.17535 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.17594 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2602.20873

arXiv ID: 2602.20543

arXiv ID: 2602.21186

arXiv ID: 2602.21035

arXiv ID: 2602.19449

arXiv ID: 2602.19570

arXiv ID: 2602.20323

arXiv ID: 2602.20119

arXiv ID: 2602.17535

arXiv ID: 2602.17594