arXiv最新AI论文速览速学

🔍

标签: #multi-modal ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 39 72小时内新更新论文 72h更新 139 最新: Auditing Frontier Vision-Language Models for Trustworthy Medical VQA: Grounding Failures, Format Collapse, and Domain Adaptation 05-02

arXiv ID: 2604.20468

arXiv 提交日期: 2026-04-22

robotics llm multi-modal skill learning human-robot interaction natural language adaptation kinesthetic teaching movement primitives

MOMO：一种实现机器人物理、语言和图形无缝技能学习与适应的框架 / MOMO: A framework for seamless physical, verbal, and graphical robot skill learning and adaptation

1️⃣ 一句话总结

本文提出一个名为MOMO的交互框架，允许非专业用户通过三种方式（物理触碰、自然语言和图形界面）灵活调整工业机器人的行为，其中语言指令通过一个安全的大语言模型架构实现，仅调用预定义函数而非生成代码，从而在保证安全的同时拓展了机器人技能的应用范围。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.20370

arXiv 提交日期: 2026-04-22

machine learning multi-modal model evaluation cold-start forecasting diffusion models life-cycle prediction conditional generation product launch

基于条件扩散模型的新产品生命周期冷启动预测 / Cold-Start Forecasting of New Product Life-Cycles via Conditional Diffusion Models

1️⃣ 一句话总结

本文提出了一种名为CDLF的条件扩散生成框架，能够在没有或仅有少量历史数据的情况下（即冷启动阶段），通过整合产品静态特征、类似产品的参考轨迹和实时观测数据，准确预测新产品的完整生命周期走势，并在英特尔处理器和开源模型仓库等多个案例中显著优于传统预测方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.20336

arXiv 提交日期: 2026-04-22

multi-modal motion generation robotics co-manipulation human-human interaction flow matching stability optimization human-object interaction

面向物体引导的人人协同操作：基于稳定性驱动的运动生成 / Stability-Driven Motion Generation for Object-Guided Human-Human Co-Manipulation

1️⃣ 一句话总结

本文提出了一种基于流匹配的框架，通过结合物体功能引导、对抗性交互先验和稳定性驱动的仿真优化，能够自动生成两人协同搬运物体时的自然、稳定且有效的运动序列。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.20199

arXiv 提交日期: 2026-04-22

llm natural language processing multi-modal multilingual rag language bias reranking bias mitigation cross-lingual retrieval

所有语言都重要：理解并缓解多语言RAG中的语言偏见 / All Languages Matter: Understanding and Mitigating Language Bias in Multilingual RAG

1️⃣ 一句话总结

本文揭示了多语言检索增强生成（mRAG）系统中，重排序阶段存在偏向英语和查询语言的系统性偏见，导致跨语言的有用证据被压制，并提出了一种名为LAURA的新方法，通过让重排序器直接对齐下游生成效果，有效消除了这种语言偏见，显著提升了多语言问答的准确性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.20715

arXiv 提交日期: 2026-04-22

computer vision multi-modal machine learning relighting 3d reconstruction diffusion transformer single image geometry

GeoRelight：利用灵活的多模态扩散变换器实现联合几何重建与重光照学习 / GeoRelight: Learning Joint Geometrical Relighting and Reconstruction with Flexible Multi-Modal Diffusion Transformers

1️⃣ 一句话总结

本文提出了一种名为GeoRelight的统一多模态扩散模型，能够从单张照片同时重建人物的3D几何形状和实现重光照，通过将这两个相互受益的任务联合求解，解决了传统分步方法误差累积和光照不一致的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.20306

arXiv 提交日期: 2026-04-22

medical multi-modal causal inference medical vqa backdoor adjustment instrumental variable confounding bias out-of-distribution generalization

双重因果推断：整合后门调整与工具变量学习的医学视觉问答 / Dual Causal Inference: Integrating Backdoor Adjustment and Instrumental Variable Learning for Medical VQA

1️⃣ 一句话总结

该论文提出了一种名为DCI的因果推理框架，通过结合后门调整和工具变量学习，有效消除了医学视觉问答中由数据混淆产生的虚假相关性，从而提升了模型在跨模态推理中的准确性和鲁棒性，尤其擅长处理分布外数据。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.20685

arXiv 提交日期: 2026-04-22

llm reinforcement learning multi-modal dpo multi-objective optimisation alignment human values direct preference optimisation

MGDA-Decoupled：基于DPF的大语言模型对齐中的几何感知多目标优化方法 / MGDA-Decoupled: Geometry-Aware Multi-Objective Optimisation for DPO-based LLM Alignment

1️⃣ 一句话总结

本文提出了一种名为MGDA-Decoupled的多目标优化算法，通过在轻量级DPO框架中引入几何信息，平衡大语言模型在有用性、真实性和无害性等多个目标上的对齐效果，从而避免传统固定权重方法对难以优化目标的忽视，实验表明该方法在整体和各目标上均取得了更高胜率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.20358

arXiv 提交日期: 2026-04-22

computer vision multi-modal machine learning composed image retrieval noisy correspondence unlearning noise robustness embedding learning

ConeSep：基于锥体的鲁棒噪声遗忘组合网络用于组合图像检索 / ConeSep: Cone-based Robust Noise-Unlearning Compositional Network for Composed Image Retrieval

1️⃣ 一句话总结

本文针对组合图像检索中因标注错误导致的噪声问题，提出了一种名为ConeSep的新型网络，通过几何精度量化、负边界学习和基于边界的定向遗忘三个创新模块，有效解决了传统方法难以应对的“硬噪声”挑战，在多个公开数据集上取得了领先性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.20319

arXiv 提交日期: 2026-04-22

medical multi-modal benchmark surgical video spatiotemporal reasoning chain-of-thought evaluation multi-modal llm

SurgCoT：通过思维链基准推动手术视频中的时空推理 / SurgCoT: Advancing Spatiotemporal Reasoning in Surgical Videos through a Chain-of-Thought Benchmark

1️⃣ 一句话总结

该论文提出了SurgCoT，一个专门用于评估多模态大语言模型在手术视频中进行时空推理能力的基准数据集，通过结构化思维链框架和精细标注，揭示了当前模型在因果推理、动作对齐等关键维度上的显著不足。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.20135

arXiv 提交日期: 2026-04-22

multi-modal machine learning model training e-commerce representation learning contrastive learning attribute generation product retrieval

AFMRL：电商中属性增强的细粒度多模态表示学习 / AFMRL: Attribute-Enhanced Fine-Grained Multi-Modal Representation Learning in E-commerce

1️⃣ 一句话总结

本文提出了一种名为AFMRL的方法，通过让多模态大模型自动生成商品的关键属性（如颜色、材质），并利用这些属性来改进对比学习和模型微调，从而大幅提升电商场景下区分高度相似商品（如同一款手机的不同颜色）的准确性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.20468

1️⃣ 一句话总结

arXiv ID: 2604.20370

1️⃣ 一句话总结

arXiv ID: 2604.20336

1️⃣ 一句话总结

arXiv ID: 2604.20199

1️⃣ 一句话总结

arXiv ID: 2604.20715

1️⃣ 一句话总结

arXiv ID: 2604.20306

1️⃣ 一句话总结

arXiv ID: 2604.20685

1️⃣ 一句话总结

arXiv ID: 2604.20358

1️⃣ 一句话总结

arXiv ID: 2604.20319

1️⃣ 一句话总结

arXiv ID: 2604.20135

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.20468 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.20370 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.20336 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.20199 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.20715 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.20306 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.20685 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.20358 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.20319 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.20135 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.20468

arXiv ID: 2604.20370

arXiv ID: 2604.20336

arXiv ID: 2604.20199

arXiv ID: 2604.20715

arXiv ID: 2604.20306

arXiv ID: 2604.20685

arXiv ID: 2604.20358

arXiv ID: 2604.20319

arXiv ID: 2604.20135