arXiv最新AI论文速览速学

🔍

标签: #multi-modal ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 39 72小时内新更新论文 72h更新 127 最新: RS-WorldModel: a Unified Model for Remote Sensing Understanding and Future Sense Forecasting 03-22

arXiv ID: 2602.08363

arXiv 提交日期: 2026-02-09

aigc multi-modal theory quantum aesthetics generative ai artistic research data visualization cultural imagination

量子美学路线图 / Roadmap to Quantum Aesthetics

1️⃣ 一句话总结

这篇论文提出了一个研究量子美学的路线图，通过两种互补方法——利用生成式AI探索文化想象中的量子概念，以及直接可视化量子力学数据来创造艺术形式——来探索艺术如何作为媒介，将抽象的量子科学转化为可感知的美学现象。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.08241

arXiv 提交日期: 2026-02-09

multi-modal model training llm visual attention reinforcement learning multimodal reasoning error correction credit assignment

多模态大语言模型真的“看见”了吗？——强化其视觉注意力机制 / Do MLLMs Really See It: Reinforcing Visual Attention in Multimodal LLMs

1️⃣ 一句话总结

这篇论文发现当前的多模态大模型在推理时视觉注意力不集中且难以自我修正，导致错误累积，为此提出了一种名为SAYO的新模型，它通过强化学习奖励机制来引导模型更可靠地关注图像关键区域，从而在多种视觉推理任务上取得了更好的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.08439

arXiv 提交日期: 2026-02-09

multi-modal model evaluation llm in-context learning video understanding instructional videos benchmark multimodal llm

Demo-ICL：基于演示的上下文学习用于过程性视频知识获取 / Demo-ICL: In-Context Learning for Procedural Video Knowledge Acquisition

1️⃣ 一句话总结

这篇论文提出了一个名为Demo-ICL的新任务和对应评测基准，旨在让多模态大语言模型能够通过观看少量教学视频演示来快速学习新技能并回答相关问题，同时开发了一个两阶段训练的新模型来有效解决这一挑战。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.09002

arXiv 提交日期: 2026-02-09

robotics multi-modal agents social navigation vision-language model path planning human-robot interaction contextual reasoning

从障碍到礼仪：基于视觉语言模型路径选择的机器人社会导航 / From Obstacles to Etiquette: Robot Social Navigation with VLM-Informed Path Selection

1️⃣ 一句话总结

这篇论文提出了一种让机器人在人群中移动时更懂‘礼貌’的新方法，它先用传统技术规划几条可行的物理路线，然后借助一个经过专门训练的视觉语言模型，像人一样‘思考’哪条路线最符合社交礼仪，从而选出既安全又不打扰他人的最优路径。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.08603

arXiv 提交日期: 2026-02-09

agents multi-modal model training composed image retrieval agentic planning trajectory optimization mixed-integer programming visual-language reasoning

OSCAR：用于组合图像检索的优化引导智能体规划框架 / OSCAR: Optimization-Steered Agentic Planning for Composed Image Retrieval

1️⃣ 一句话总结

这篇论文提出了一个名为OSCAR的新框架，它将组合图像检索任务从一个依赖试错的启发式搜索过程，转变为一个有理论依据的轨迹优化问题，通过离线计算最优检索路径并在线引导模型，从而用更少的数据实现了更准确、泛化能力更强的检索效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.08342

arXiv 提交日期: 2026-02-09

multi-modal computer vision model training spatial grounding urban science multimodal embeddings graph embeddings benchmark

UrbanGraphEmbeddings：面向城市科学的学习与评估空间基础多模态嵌入 / UrbanGraphEmbeddings: Learning and Evaluating Spatially Grounded Multimodal Embeddings for Urban Science

1️⃣ 一句话总结

这篇论文提出了一个结合街景图像与城市空间结构图的数据集和训练方法，让AI模型能更好地理解城市环境中的空间关系（如距离、方向、连接性），从而在图像检索、地理位置推断等城市任务上取得显著性能提升。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.08430

arXiv 提交日期: 2026-02-09

computer vision model training multi-modal image matching attention mechanism local features transformer keypoint detection

理解与优化基于注意力的稀疏匹配方法以适配多样化局部特征 / Understanding and Optimizing Attention-Based Sparse Matching for Diverse Local Features

1️⃣ 一句话总结

这篇论文通过分析发现，在基于注意力机制的图像匹配模型中，特征检测器（而非描述符）是性能差异的关键，并提出了一种利用多种检测器关键点进行微调的新方法，从而创建了一个通用的、不依赖特定检测器的匹配模型，使其在零样本情况下对新检测器的匹配精度达到或超过专门训练的模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.07872

arXiv 提交日期: 2026-02-08

medical computer vision multi-modal medical image retrieval radiology reports contrastive learning fracture diagnosis pediatric imaging

WristMIR：基于放射学报告驱动学习、从粗到细的区域感知儿科腕部X光片检索 / WristMIR: Coarse-to-Fine Region-Aware Retrieval of Pediatric Wrist Radiographs with Radiology Report-Driven Learning

1️⃣ 一句话总结

这篇论文提出了一个名为WristMIR的智能系统，它能自动分析儿科腕部X光片和对应的放射科医生报告，先快速筛选出可能相似的病例，再针对特定骨骼区域进行精细比对，从而更准确地帮助医生找到具有相似骨折特征的参考影像，辅助诊断。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.07833

arXiv 提交日期: 2026-02-08

multi-modal llm model evaluation faithfulness chain-of-thought benchmark visual reasoning interpretability

SPD-Faith Bench：诊断与提升多模态大语言模型思维链推理的忠实性 / SPD-Faith Bench: Diagnosing and Improving Faithfulness in Chain-of-Thought for Multimodal Large Language Models

1️⃣ 一句话总结

这篇论文提出了一个名为SPD-Faith Bench的诊断基准，用于发现多模态大模型在思维链推理中存在的‘感知盲区’和‘感知-推理脱节’两大不忠实问题，并通过一种无需训练的可视化证据校准框架SAGE来提升推理的可靠性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.07993

arXiv 提交日期: 2026-02-08

multi-modal natural language processing computer vision instruction-based image editing multimodal llm spatial guidance benchmark denoising

MCIE：基于多模态大语言模型、具备空间引导能力的复杂指令图像编辑方法 / MCIE: Multimodal LLM-Driven Complex Instruction Image Editing with Spatial Guidance

1️⃣ 一句话总结

这篇论文提出了一种名为MCIE-E1的新方法，它利用多模态大语言模型来理解和执行复杂的图像编辑指令，通过两个关键模块确保编辑结果既准确遵循指令，又能保持图像背景的连贯性，并在新建立的评测标准上大幅超越了现有技术。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2602.08363

1️⃣ 一句话总结

arXiv ID: 2602.08241

1️⃣ 一句话总结

arXiv ID: 2602.08439

1️⃣ 一句话总结

arXiv ID: 2602.09002

1️⃣ 一句话总结

arXiv ID: 2602.08603

1️⃣ 一句话总结

arXiv ID: 2602.08342

1️⃣ 一句话总结

arXiv ID: 2602.08430

1️⃣ 一句话总结

arXiv ID: 2602.07872

1️⃣ 一句话总结

arXiv ID: 2602.07833

1️⃣ 一句话总结

arXiv ID: 2602.07993

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2602.08363 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.08241 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.08439 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.09002 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.08603 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.08342 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.08430 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.07872 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.07833 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.07993 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2602.08363

arXiv ID: 2602.08241

arXiv ID: 2602.08439

arXiv ID: 2602.09002

arXiv ID: 2602.08603

arXiv ID: 2602.08342

arXiv ID: 2602.08430

arXiv ID: 2602.07872

arXiv ID: 2602.07833

arXiv ID: 2602.07993