arXiv最新AI论文速览速学

🔍

标签: #multi-modal ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 77 72小时内新更新论文 72h更新 177 最新: RS-WorldModel: a Unified Model for Remote Sensing Understanding and Future Sense Forecasting 03-22

arXiv ID: 2602.22683

arXiv 提交日期: 2026-02-26

multi-modal benchmark agents vision language models smart glasses visual question answering egocentric vision retrieval-augmented generation

SUPERGLASSES：将视觉语言模型作为智能眼镜智能代理的基准测试 / SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

1️⃣ 一句话总结

这篇论文提出了首个基于真实智能眼镜数据构建的视觉问答基准测试SUPERGLASSES，并设计了一个名为SUPERLENS的新型智能眼镜代理，该代理通过整合目标检测和网络搜索，在回答问题时超越了GPT-4o等现有模型，为解决智能眼镜场景下的特定挑战提供了新方案。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.23228

arXiv 提交日期: 2026-02-26

multi-modal video model evaluation video summarization vision-language models tool-augmented generation character identification progressive abstraction

MovieTeller：基于工具增强与身份一致渐进式抽象的电影梗概生成 / MovieTeller: Tool-augmented Movie Synopsis with ID Consistent Progressive Abstraction

1️⃣ 一句话总结

这篇论文提出了一个名为MovieTeller的新框架，它通过结合现成的人脸识别工具和分阶段抽象的方法，解决了现有视觉语言模型在生成长视频（如电影）梗概时角色身份混乱和叙事不连贯的问题，从而生成了更准确、更连贯的电影摘要。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.22919

arXiv 提交日期: 2026-02-26

medical multi-modal model training cardiac digital twin ecg-to-4d generative modeling cardiac motion reconstruction medical imaging

流链：一种从心电信号生成4D心脏数字孪生的基础性框架 / Chain of Flow: A Foundational Generative Framework for ECG-to-4D Cardiac Digital Twins

1️⃣ 一句话总结

这篇论文提出了一个名为‘流链’的基础性生成框架，它能够仅凭一段心电信号就重建出患者个性化的、包含完整结构和动态运动的4D心脏数字孪生，从而将心脏数字孪生从单一任务的预测模型转变为可广泛用于模拟和分析的虚拟心脏。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.22742

arXiv 提交日期: 2026-02-26

computer vision multi-modal model training motion generation flow matching kinematic constraints zero-shot control inverse problems

ProjFlow：基于流匹配的投影采样方法，用于零样本精确空间运动控制 / ProjFlow: Projection Sampling with Flow Matching for Zero-Shot Exact Spatial Motion Control

1️⃣ 一句话总结

这篇论文提出了一种名为ProjFlow的新方法，它无需额外训练就能精确控制人体运动的空间位置，同时保持动作的自然流畅性，解决了现有方法在满足硬性约束时常常破坏动作真实感的难题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.23292

arXiv 提交日期: 2026-02-26

medical computer vision multi-modal virtual staining histopathology image-to-image translation prompt guidance protein expression

PGVMS：一种基于提示引导、融合病理语义学习的虚拟多重免疫组化染色统一框架 / PGVMS: A Prompt-Guided Unified Framework for Virtual Multiplex IHC Staining with Pathological Semantic Learning

1️⃣ 一句话总结

这项研究提出了一种名为PGVMS的智能框架，它能够仅利用单一染色数据，通过病理语义学习和提示引导技术，将普通的H&E病理切片图像高质量地转化为多种虚拟的免疫组化染色图像，从而解决传统方法在语义指导、染色分布一致性和空间对齐方面的难题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.22897

arXiv 提交日期: 2026-02-26

agents multi-modal benchmark omni-modal agents tool usage cross-modal reasoning foundation agent evaluation benchmark

OmniGAIA：迈向原生全模态AI助手 / OmniGAIA: Towards Native Omni-Modal AI Agents

1️⃣ 一句话总结

这篇论文提出了一个名为OmniGAIA的全模态AI助手评估基准，并开发了一个名为OmniAtlas的原生全模态基础智能体，旨在让AI能像人类一样综合处理视觉、听觉和语言信息，并进行复杂推理和工具调用，以更好地解决现实世界中的复杂任务。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.23191

arXiv 提交日期: 2026-02-26

computer vision multi-modal model training sketch colorization diffusion transformer temporal coherence reference-based generation video generation

Uni-Animator：迈向统一的视觉着色 / Uni-Animator: Towards Unified Visual Colorization

1️⃣ 一句话总结

这篇论文提出了一个名为Uni-Animator的统一框架，它能够同时为图像和视频的黑白线稿进行智能上色，不仅颜色参考更精准，还能更好地保留细节纹理并确保视频画面的流畅稳定。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.22740

arXiv 提交日期: 2026-02-26

computer vision natural language processing multi-modal referring image segmentation vision-language alignment masked learning pixel-level alignment robustness

AMLRIS：用于指代图像分割的对齐感知掩码学习 / AMLRIS: Alignment-aware Masked Learning for Referring Image Segmentation

1️⃣ 一句话总结

这篇论文提出了一种名为对齐感知掩码学习的新训练方法，通过评估并过滤掉图像与文字描述之间对齐不佳的区域，让模型专注于可靠的视觉语言线索，从而在指代图像分割任务中取得了领先的性能，并增强了模型对不同描述和场景的适应能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.22932

arXiv 提交日期: 2026-02-26

multi-modal model training model evaluation video understanding key-frame sampling reinforcement learning multimodal llm long-form video

MSJoE：联合进化多模态大语言模型与采样器以实现高效长视频理解 / MSJoE: Jointly Evolving MLLM and Sampler for Efficient Long-Form Video Understanding

1️⃣ 一句话总结

这篇论文提出了一种名为MSJoE的新方法，它通过让多模态大语言模型和一个轻量级的关键帧采样器协同学习和进化，智能地从长视频中筛选出少量最相关的画面进行理解，从而在显著提升回答准确率的同时，实现了对长视频的高效分析。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.22862

arXiv 提交日期: 2026-02-26

robotics model training multi-modal grasping policy latent diffusion imitation learning robotic manipulation self-supervised learning

GraspLDP：通过潜在扩散实现可泛化的抓取策略 / GraspLDP: Towards Generalizable Grasping Policy via Latent Diffusion

1️⃣ 一句话总结

这篇论文提出了一种结合抓取先验知识的潜在扩散策略，通过引导机器人动作生成和融入视觉重建目标，显著提升了模仿学习抓取策略的精确度和对不同物体、不同场景的泛化能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2602.22683

1️⃣ 一句话总结

arXiv ID: 2602.23228

1️⃣ 一句话总结

arXiv ID: 2602.22919

1️⃣ 一句话总结

arXiv ID: 2602.22742

1️⃣ 一句话总结

arXiv ID: 2602.23292

1️⃣ 一句话总结

arXiv ID: 2602.22897

1️⃣ 一句话总结

arXiv ID: 2602.23191

1️⃣ 一句话总结

arXiv ID: 2602.22740

1️⃣ 一句话总结

arXiv ID: 2602.22932

1️⃣ 一句话总结

arXiv ID: 2602.22862

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2602.22683 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.23228 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.22919 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.22742 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.23292 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.22897 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.23191 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.22740 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.22932 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.22862 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2602.22683

arXiv ID: 2602.23228

arXiv ID: 2602.22919

arXiv ID: 2602.22742

arXiv ID: 2602.23292

arXiv ID: 2602.22897

arXiv ID: 2602.23191

arXiv ID: 2602.22740

arXiv ID: 2602.22932

arXiv ID: 2602.22862