arXiv最新AI论文速览速学

🔍

multi-modal ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 170 72小时内新更新论文 72h更新 265 最新: VorTEX: Various overlap ratio for Target speech EXtraction 03-18

arXiv ID: 2603.05181

arXiv 提交日期: 2026-03-05

llm multi-modal model training multimodal graph reasoning graph-conditioned vlm modality-adaptive instruction tuning cross-modal contrastive learning node classification

Mario：基于大语言模型的多模态图推理 / Mario: Multimodal Graph Reasoning with Large Language Models

1️⃣ 一句话总结

这篇论文提出了一个名为Mario的新框架，它能让大语言模型更好地理解和推理同时包含图像、文本以及它们之间复杂关系的多模态图数据，从而在多项任务上超越了现有方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.04890

arXiv 提交日期: 2026-03-05

multi-modal federated learning model training adversarial alignment knowledge distillation heterogeneous clients privacy-preserving personalized federated learning

FedAFD：基于对抗性融合与蒸馏的多模态联邦学习 / FedAFD: Multimodal Federated Learning via Adversarial Fusion and Distillation

1️⃣ 一句话总结

这篇论文提出了一个名为FedAFD的新框架，它通过客户端上的对抗性对齐与自适应融合，以及服务器上的相似性引导蒸馏，有效解决了多模态联邦学习中因数据、任务和模型差异导致的性能瓶颈，从而在保护隐私的同时，让不同数据类型的设备能协同训练出更强大且个性化的模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.05255

arXiv 提交日期: 2026-03-05

multi-modal agents systems cooperative perception multi-agent systems temporal alignment feature denoising adaptive fusion

CATNet：用于协同感知的协作对齐与转换网络 / CATNet: Collaborative Alignment and Transformation Network for Cooperative Perception

1️⃣ 一句话总结

这篇论文提出了一个名为CATNet的自适应补偿框架，通过同步异步数据、抑制噪声和动态选择关键特征，有效解决了多智能体协同感知中因高延迟和噪声干扰导致的信息融合难题，显著提升了复杂交通场景下的感知鲁棒性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.04818

arXiv 提交日期: 2026-03-05

llm natural language processing multi-modal temporal graph networks explainable ai port congestion prediction llm-grounded reasoning graph attention networks

基于时序图注意力网络与LLM的港口拥堵预测可解释性框架 / LLM-Grounded Explainability for Port Congestion Prediction via Temporal Graph Attention Networks

1️⃣ 一句话总结

这篇论文提出了一个名为AIS-TGNN的框架，它结合了时序图注意力网络和大语言模型，不仅能准确预测港口拥堵，还能利用模型内部证据生成可靠的自然语言解释，为海事监控和供应链风险管理提供了可审计的AI解决方案。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.04307

arXiv 提交日期: 2026-03-04

computer vision multi-modal model training 3d avatar generation diffusion models multi-modal guidance dataset creation text-to-3d

用于多模态引导三维虚拟人生成的双扩散模型 / Dual Diffusion Models for Multi-modal Guided 3D Avatar Generation

1️⃣ 一句话总结

这篇论文提出了一个名为PromptAvatar的新框架，它利用文本和图像提示，通过两个专门的扩散模型快速生成细节丰富、无需迭代优化的高保真3D虚拟人，解决了现有方法在细节控制、速度和数据依赖上的难题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.03710

arXiv 提交日期: 2026-03-04

medical multi-modal model training mri reconstruction zero-shot learning generative prior flow matching cross-modal guidance

MPFlow：用于零样本磁共振成像重建的多模态后验引导流匹配方法 / MPFlow: Multi-modal Posterior-Guided Flow Matching for Zero-Shot MRI Reconstruction

1️⃣ 一句话总结

本文提出了一种名为MPFlow的新方法，它通过利用临床中已有的高质量辅助扫描图像来引导重建过程，从而在无需额外训练的情况下，更快速、更准确地重建出高质量的磁共振图像，并有效减少了图像中的虚假信息。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.03815

arXiv 提交日期: 2026-03-04

natural language processing computer vision multi-modal zero-shot learning prompt tuning open-vocabulary compositional reasoning embedding structure

面向开放词汇组合式零样本学习的结构感知提示自适应方法：从可见到未见 / Structure-aware Prompt Adaptation from Seen to Unseen for Open-Vocabulary Compositional Zero-Shot Learning

1️⃣ 一句话总结

这篇论文提出了一种名为SPA的结构感知提示自适应方法，它通过保持和利用语义概念在嵌入空间中的局部结构一致性，让AI模型能够像人类一样，通过已知的‘湿’和‘衬衫’等概念，来理解和识别未知的‘潮湿’和‘夹克’等新概念及其组合，从而显著提升了开放词汇场景下的组合式零样本学习性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.03762

arXiv 提交日期: 2026-03-04

computer vision multi-modal agents fine-grained visual understanding knowledge-augmented reasoning open-set recognition evidence-driven reasoning multimodal agent

像专家一样观察：一个用于开放集细粒度视觉理解的知识增强智能体 / Seeing as Experts Do: A Knowledge-Augmented Agent for Open-Set Fine-Grained Visual Understanding

1️⃣ 一句话总结

这篇论文提出了一个名为KFRA的知识增强智能体，它通过模仿专家的三步分析过程（提出假设、定位关键区域、整合多模态证据进行推理），将细粒度视觉识别转化为基于证据的推理，从而在开放环境下更准确、更可解释地理解复杂图像。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.04005

arXiv 提交日期: 2026-03-04

model training theory multi-modal rate-distortion-perception diffusion models lossy compression perceptual quality training-free

基于扩散模型的无训练率-失真-感知权衡遍历方法 / Training-Free Rate-Distortion-Perception Traversal With Diffusion

1️⃣ 一句话总结

这篇论文提出了一种无需重新训练的新方法，利用现成的扩散模型，让图像压缩系统能够灵活地调整压缩率、图像保真度和视觉真实感之间的平衡，实现了理论最优且实用的自适应感知压缩。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.04291

arXiv 提交日期: 2026-03-04

video generation computer vision multi-modal 360° video generation autoregressive diffusion cubemap representation virtual reality 4k resolution

CubeComposer：从透视视频生成时空自回归4K 360°视频 / CubeComposer: Spatio-Temporal Autoregressive 4K 360° Video Generation from Perspective Video

1️⃣ 一句话总结

这篇论文提出了一种名为CubeComposer的新方法，它通过将360度视频分解成六个立方体贴图面并按特定时空顺序自回归合成内容，从而首次实现了直接从透视视频原生生成高质量4K分辨率360度全景视频，解决了现有方法因计算限制只能生成低分辨率视频的难题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.05181

1️⃣ 一句话总结

arXiv ID: 2603.04890

1️⃣ 一句话总结

arXiv ID: 2603.05255

1️⃣ 一句话总结

arXiv ID: 2603.04818

1️⃣ 一句话总结

arXiv ID: 2603.04307

1️⃣ 一句话总结

arXiv ID: 2603.03710

1️⃣ 一句话总结

arXiv ID: 2603.03815

1️⃣ 一句话总结

arXiv ID: 2603.03762

1️⃣ 一句话总结

arXiv ID: 2603.04005

1️⃣ 一句话总结

arXiv ID: 2603.04291

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.05181 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.04890 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.05255 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.04818 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.04307 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.03710 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.03815 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.03762 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.04005 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.04291 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.05181

arXiv ID: 2603.04890

arXiv ID: 2603.05255

arXiv ID: 2603.04818

arXiv ID: 2603.04307

arXiv ID: 2603.03710

arXiv ID: 2603.03815

arXiv ID: 2603.03762

arXiv ID: 2603.04005

arXiv ID: 2603.04291