arXiv最新AI论文速览速学

🔍

标签: #multimodal llm ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 166 72小时内新更新论文 72h更新 171 最新: MEGC2026: Micro-Expression Grand Challenge on Visual Question Answering 03-16

arXiv ID: 2603.08927

arXiv 提交日期: 2026-03-09

multi-modal computer vision benchmark micro-expression visual question answering multimodal llm video analysis temporal reasoning

MEGC2026：关于视觉问答的微表情大挑战 / MEGC2026: Micro-Expression Grand Challenge on Visual Question Answering

1️⃣ 一句话总结

这篇论文介绍了2026年微表情大挑战赛，它利用新兴的多模态大模型技术，设置了短时和长时微表情视频问答两项任务，旨在推动微表情自动分析领域的发展。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.04868

arXiv 提交日期: 2026-03-05

multi-modal agents model training autonomous driving trajectory generation keypoint prediction multimodal llm reinforcement fine-tuning

K-Gen：一种用于可解释的关键点引导轨迹生成的多模态语言条件方法 / K-Gen: A Multimodal Language-Conditioned Approach for Interpretable Keypoint-Guided Trajectory Generation

1️⃣ 一句话总结

这篇论文提出了一种名为K-Gen的新方法，它通过结合图像地图和文字描述来理解驾驶场景，并先生成代表车辆意图的关键点，再将其细化为完整轨迹，从而在自动驾驶模拟中生成更真实、可解释的车辆行驶路线。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.03198

arXiv 提交日期: 2026-03-03

multi-modal agents systems spatial intelligence embodied ai multimodal llm model merging cross-embodiment transfer

ACE-Brain-0：将空间智能作为通用具身智能的共享基础框架 / ACE-Brain-0: Spatial Intelligence as a Shared Scaffold for Universal Embodiments

1️⃣ 一句话总结

这篇论文提出了一个名为ACE-Brain-0的通用智能基础模型，其核心思想是利用‘空间智能’作为通用桥梁，成功地将自动驾驶、机器人操控和无人机飞行等不同形态的智能体统一到一个多模态大模型中，并通过创新的训练方法使其在多种任务上达到领先性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.02951

arXiv 提交日期: 2026-03-03

agents reinforcement learning model training continual learning gui agents reinforcement fine-tuning multimodal llm gradient surgery

CGL：通过强化微调推进持续GUI学习 / CGL: Advancing Continual GUI Learning via Reinforcement Fine-Tuning

1️⃣ 一句话总结

这篇论文提出了一个名为CGL的新框架，通过巧妙地结合监督微调和强化学习，并引入动态调整机制与梯度处理策略，有效解决了图形用户界面智能体在持续学习新任务时容易遗忘旧知识的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.22932

arXiv 提交日期: 2026-02-26

multi-modal model training model evaluation video understanding key-frame sampling reinforcement learning multimodal llm long-form video

MSJoE：联合进化多模态大语言模型与采样器以实现高效长视频理解 / MSJoE: Jointly Evolving MLLM and Sampler for Efficient Long-Form Video Understanding

1️⃣ 一句话总结

这篇论文提出了一种名为MSJoE的新方法，它通过让多模态大语言模型和一个轻量级的关键帧采样器协同学习和进化，智能地从长视频中筛选出少量最相关的画面进行理解，从而在显著提升回答准确率的同时，实现了对长视频的高效分析。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.21788

arXiv 提交日期: 2026-02-25

model training systems multi-modal parallel training dynamic parallelism scaling efficiency multimodal llm distributed systems

DHP：基于动态混合并行化的多模态大语言模型高效扩展训练方法 / DHP: Efficient Scaling of MLLM Training with Dynamic Hybrid Parallelism

1️⃣ 一句话总结

本文提出了一种名为动态混合并行（DHP）的新训练方法，它能根据多模态数据的巨大差异自动调整计算资源的分配方式，从而在保持高效扩展的同时，显著提升多模态大语言模型的训练速度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.21858

arXiv 提交日期: 2026-02-25

agents benchmark multi-modal mobile agents proactive intelligence multimodal llm evaluation benchmark function calling

ProactiveMobile：一个用于提升移动设备主动智能的综合基准 / ProactiveMobile: A Comprehensive Benchmark for Boosting Proactive Intelligence on Mobile Devices

1️⃣ 一句话总结

这篇论文提出了一个名为ProactiveMobile的综合性基准测试，旨在推动移动设备从被动执行指令向主动预测用户需求并执行行动的智能范式转变，并通过实验证明当前主流模型在此能力上普遍不足，但可以通过学习来提升。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.19961

arXiv 提交日期: 2026-02-23

multi-modal natural language processing llm visual document retrieval multimodal llm retrieval-augmented generation survey document intelligence

解锁多模态文档智能：从当前成就到视觉文档检索的未来前沿 / Unlocking Multimodal Document Intelligence: From Current Triumphs to Future Frontiers of Visual Document Retrieval

1️⃣ 一句话总结

这篇论文首次全面综述了视觉文档检索领域，系统梳理了其方法演进、当前挑战，并展望了未来发展方向，为多模态文档智能研究提供了清晰的路线图。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.16412

arXiv 提交日期: 2026-02-18

multi-modal model training video video understanding motion representation long-video multimodal llm compressed representation

ReMoRa：基于精细化运动表征的多模态大语言模型，用于长视频理解 / ReMoRa: Multimodal Large Language Model based on Refined Motion Representation for Long-Video Understanding

1️⃣ 一句话总结

这篇论文提出了一种名为ReMoRa的新模型，它通过直接处理视频压缩后的运动表征而非大量原始图像帧，高效地解决了多模态大模型理解长视频时计算量过大的难题，并在多个长视频理解测试中取得了领先效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.08439

arXiv 提交日期: 2026-02-09

multi-modal model evaluation llm in-context learning video understanding instructional videos benchmark multimodal llm

Demo-ICL：基于演示的上下文学习用于过程性视频知识获取 / Demo-ICL: In-Context Learning for Procedural Video Knowledge Acquisition

1️⃣ 一句话总结

这篇论文提出了一个名为Demo-ICL的新任务和对应评测基准，旨在让多模态大语言模型能够通过观看少量教学视频演示来快速学习新技能并回答相关问题，同时开发了一个两阶段训练的新模型来有效解决这一挑战。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.08927

1️⃣ 一句话总结

arXiv ID: 2603.04868

1️⃣ 一句话总结

arXiv ID: 2603.03198

1️⃣ 一句话总结

arXiv ID: 2603.02951

1️⃣ 一句话总结

arXiv ID: 2602.22932

1️⃣ 一句话总结

arXiv ID: 2602.21788

1️⃣ 一句话总结

arXiv ID: 2602.21858

1️⃣ 一句话总结

arXiv ID: 2602.19961

1️⃣ 一句话总结

arXiv ID: 2602.16412

1️⃣ 一句话总结

arXiv ID: 2602.08439

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.08927 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.04868 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.03198 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.02951 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.22932 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.21788 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.21858 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.19961 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.16412 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.08439 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.08927

arXiv ID: 2603.04868

arXiv ID: 2603.03198

arXiv ID: 2603.02951

arXiv ID: 2602.22932

arXiv ID: 2602.21788

arXiv ID: 2602.21858

arXiv ID: 2602.19961

arXiv ID: 2602.16412

arXiv ID: 2602.08439