arXiv最新AI论文速览速学

🔍

标签: #multi-modal ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 39 72小时内新更新论文 72h更新 127 最新: RS-WorldModel: a Unified Model for Remote Sensing Understanding and Future Sense Forecasting 03-22

arXiv ID: 2602.20577

arXiv 提交日期: 2026-02-24

multi-modal agents model training autonomous driving vision-language-action diffusion model action tokenization explainable ai

通过掩码视觉-语言-动作扩散实现高效且可解释的端到端自动驾驶 / Efficient and Explainable End-to-End Autonomous Driving via Masked Vision-Language-Action Diffusion

1️⃣ 一句话总结

这篇论文提出了一种名为MVLAD-AD的新框架，它通过一种创新的掩码扩散模型，将驾驶场景的视觉和语言理解与精确的轨迹规划相结合，从而在保证高效运行和行动精度的同时，提供了清晰、可解释的决策过程。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.20659

arXiv 提交日期: 2026-02-24

robotics multi-modal agents vision-language-action long-horizon manipulation belief state partial observability diffusion policy

递归信念视觉语言模型 / Recursive Belief Vision Language Model

1️⃣ 一句话总结

这篇论文提出了一个名为RB-VLA的新模型，它通过引入一个持续更新的内部‘信念’状态来记住任务历史和物体交互，从而显著提升了机器人在部分可观测环境下执行多步骤操作任务的成功率和效率，并大幅降低了计算延迟。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.21133

arXiv 提交日期: 2026-02-24

model training multi-modal aigc vector quantization self-organizing maps generative models interpretability human-in-the-loop

SOM-VQ：面向交互式生成模型的拓扑感知分词方法 / SOM-VQ: Topology-Aware Tokenization for Interactive Generative Models

1️⃣ 一句话总结

这篇论文提出了一种名为SOM-VQ的新方法，它将向量量化与自组织映射相结合，为生成模型学习具有明确拓扑结构的离散编码，使得用户能够通过直观地操作编码空间中的距离来控制和引导生成过程，特别适用于需要人机交互的领域，如人体运动生成。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.20664

arXiv 提交日期: 2026-02-24

multi-modal multi-agents model evaluation storyboard generation image-to-video multi-agent framework consistency evaluation animation

AnimeAgent：基于图像到视频模型的多智能体是好的迪士尼故事板艺术家吗？ / AnimeAgent: Is the Multi-Agent via Image-to-Video models a Good Disney Storytelling Artist?

1️⃣ 一句话总结

这篇论文提出了一个名为AnimeAgent的创新框架，它利用图像到视频模型和多智能体协作，通过模仿迪士尼动画工作流程，解决了现有方法在生成连贯、动态且符合风格的故事板时面临的三大难题，从而显著提升了生成质量。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.20543

arXiv 提交日期: 2026-02-24

medical computer vision multi-modal quality control colony detection vision-language models pharmaceutical manufacturing multi-agent system

超越人类表现：一种用于药品生产质量控制的视觉-语言多智能体方法 / Beyond Human Performance: A Vision-Language Multi-Agent Approach for Quality Control in Pharmaceutical Manufacturing

1️⃣ 一句话总结

这篇论文提出了一种结合深度学习与视觉语言模型的多智能体系统，用于自动检测药品生产中的菌落数量，不仅将人工复核工作量减少了85%，还通过专家反馈实现自我改进，为制药行业提供了一个高精度、可扩展且符合监管要求的自动化质量控制方案。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.21154

arXiv 提交日期: 2026-02-24

medical multi-modal model training ecg analysis representation learning contrastive learning generative modeling multimodal fusion

CG-DMER：用于解耦多模态心电图表征学习的混合对比-生成框架 / CG-DMER: Hybrid Contrastive-Generative Framework for Disentangled Multimodal ECG Representation Learning

1️⃣ 一句话总结

这篇论文提出了一个名为CG-DMER的新框架，它通过结合对比学习和生成学习，并引入时空掩码建模与表征解耦对齐策略，有效解决了现有方法在心电图与临床报告多模态融合中忽略导联间时空依赖性和引入文本特有偏差的问题，从而在多种下游任务上取得了领先性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.21142

arXiv 提交日期: 2026-02-24

medical multi-modal model training vision-language model radiology longitudinal analysis chest x-ray prognostic vqa

LUMEN：用于预后和诊断的纵向多模态放射学模型 / LUMEN: Longitudinal Multi-Modal Radiology Model for Prognosis and Diagnosis

1️⃣ 一句话总结

这篇论文提出了一个名为LUMEN的新型AI训练框架，它能够通过分析病人不同时间点的多张胸部X光片，自动解读病情变化，不仅帮助医生诊断当前疾病，还能预测未来的健康风险，从而为临床决策提供更全面、更及时的支持。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.20989

arXiv 提交日期: 2026-02-24

computer vision model training multi-modal image decomposition diffusion models cycle consistency lora fine-tuning self-improving training

用于分层图像分解的循环一致性调优 / Cycle-Consistent Tuning for Layered Image Decomposition

1️⃣ 一句话总结

这篇论文提出了一种利用大型扩散模型来分离图像中不同视觉层（如物体表面的标志）的新方法，它通过一种循环训练策略和自增强过程，让模型在分解和重组图像时保持一致性，从而更准确地处理复杂的图像层间交互。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.20566

arXiv 提交日期: 2026-02-24

robotics multi-modal model training token pruning vision-language-action robotic manipulation efficiency multi-view

BFA++：面向多视角视觉语言动作模型的分层最佳特征感知令牌剪枝 / BFA++: Hierarchical Best-Feature-Aware Token Prune for Multi-View Vision Language Action Model

1️⃣ 一句话总结

本文提出了一种名为BFA++的动态令牌剪枝框架，它通过分层策略智能筛选多视角图像中的关键视觉信息，从而在显著提升机器人操作模型计算速度的同时，保持甚至提高了任务执行的成功率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.21186

arXiv 提交日期: 2026-02-24

computer vision multi-modal model training 3d visual reasoning spatial representation vision-language models self-supervised learning feature fields

Spa3R：用于三维视觉推理的预测性空间场建模 / Spa3R: Predictive Spatial Field Modeling for 3D Visual Reasoning

1️⃣ 一句话总结

这篇论文提出了一种名为Spa3R的自监督学习框架，它仅从二维多视角图像中就能学习到统一且视角不变的三维空间表征，并通过一个轻量级适配器将这种空间理解能力赋予现有视觉语言模型，从而在三维视觉问答任务上取得了领先的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2602.20577

1️⃣ 一句话总结

arXiv ID: 2602.20659

1️⃣ 一句话总结

arXiv ID: 2602.21133

1️⃣ 一句话总结

arXiv ID: 2602.20664

1️⃣ 一句话总结

arXiv ID: 2602.20543

1️⃣ 一句话总结

arXiv ID: 2602.21154

1️⃣ 一句话总结

arXiv ID: 2602.21142

1️⃣ 一句话总结

arXiv ID: 2602.20989

1️⃣ 一句话总结

arXiv ID: 2602.20566

1️⃣ 一句话总结

arXiv ID: 2602.21186

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2602.20577 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.20659 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.21133 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.20664 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.20543 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.21154 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.21142 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.20989 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.20566 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.21186 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2602.20577

arXiv ID: 2602.20659

arXiv ID: 2602.21133

arXiv ID: 2602.20664

arXiv ID: 2602.20543

arXiv ID: 2602.21154

arXiv ID: 2602.21142

arXiv ID: 2602.20989

arXiv ID: 2602.20566

arXiv ID: 2602.21186