arXiv最新AI论文速览速学

🔍

标签: #multimodal llms ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 98 72小时内新更新论文 72h更新 100 最新: MAny: Merge Anything for Multimodal Continual Instruction Tuning 04-16

arXiv ID: 2603.03681

arXiv 提交日期: 2026-03-04

multi-modal model training systems token pruning efficient inference multimodal llms visual encoding computational efficiency

EvoPrune：面向高效多模态大语言模型的早期视觉令牌剪枝方法 / EvoPrune: Early-Stage Visual Token Pruning for Efficient MLLMs

1️⃣ 一句话总结

这篇论文提出了一种名为EvoPrune的新方法，它在多模态大模型处理图像或视频的早期阶段就智能地筛选掉不重要的视觉信息块，从而在不明显影响模型性能的前提下，大幅提升了模型的推理速度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.02546

arXiv 提交日期: 2026-03-03

multi-modal model evaluation machine learning multimodal llms action understanding discriminative classifiers generative classifiers efficiency

论判别式与生成式分类器：重新思考用于动作理解的多模态大语言模型 / On Discriminative vs. Generative classifiers: Rethinking MLLMs for Action Understanding

1️⃣ 一句话总结

这篇论文发现，在封闭场景的动作理解任务中，基于多模态大语言模型的判别式分类器比生成式分类器更准确高效，并提出了一种仅在微调阶段引入生成式辅助的混合方法，显著提升了模型性能与推理速度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.02789

arXiv 提交日期: 2026-03-03

multi-modal natural language processing model evaluation document information extraction multimodal llms ocr benchmarking error analysis

OCR还是不用OCR？在MLLMs时代基于真实世界大规模数据集重新思考文档信息提取 / OCR or Not? Rethinking Document Information Extraction in the MLLMs Era with Real-World Large-Scale Datasets

1️⃣ 一句话总结

这项研究发现，对于强大的多模态大语言模型来说，直接输入文档图像进行信息提取的效果已经可以媲美传统的OCR预处理后再分析的流程，这意味着未来处理文档时可能不再需要OCR步骤。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.21950

arXiv 提交日期: 2026-02-25

medical multi-modal benchmark multimodal llms clinical diagnosis medical benchmark evidence synthesis model evaluation

MEDSYN：针对多模态大语言模型的复杂临床病例多证据合成基准测试 / MEDSYN: Benchmarking Multi-EviDence SYNthesis in Complex Clinical Cases for Multimodal Large Language Models

1️⃣ 一句话总结

这篇论文提出了一个名为MEDSYN的新基准测试，用于评估多模态大语言模型在整合多种复杂临床证据（如图像和文本）以进行准确诊断方面的能力，发现当前模型在综合不同类型证据方面存在明显缺陷，并提出了量化这种缺陷的方法以指导模型改进。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.20980

arXiv 提交日期: 2026-02-24

multi-modal model training natural language processing multimodal llms latent reasoning visual semantics attention alignment visual understanding

CrystaL：多模态大语言模型中视觉潜在特征的自发涌现 / CrystaL: Spontaneous Emergence of Visual Latents in MLLMs

1️⃣ 一句话总结

这篇论文提出了一个名为CrystaL的单阶段框架，它通过并行处理完整图像和受损图像并显式对齐其内部注意力与预测，使得多模态大模型能够在无需额外标注的情况下，自发地在推理过程中形成并保留与任务高度相关的关键视觉语义信息，从而显著提升了模型在细粒度视觉理解任务上的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.19534

arXiv 提交日期: 2026-02-23

llm robotics systems uav operations swarm coordination retrieval-augmented generation multimodal llms human-swarm interaction

大型语言模型辅助的无人机操作与通信：一项多方面的综述与教程 / Large Language Model-Assisted UAV Operations and Communications: A Multifaceted Survey and Tutorial

1️⃣ 一句话总结

这篇论文系统地综述了如何将大型语言模型（LLMs）集成到无人机系统中，以提升其在环境理解、任务规划、集群协同和通信管理等方面的智能与自适应能力，并探讨了相关的技术方法、应用场景及伦理挑战。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.15769

arXiv 提交日期: 2026-02-17

llm multi-modal model evaluation multimodal llms table attribution visual reasoning evidence citation structured data

ViTaB-A：评估多模态大语言模型在视觉表格归因任务上的表现 / ViTaB-A: Evaluating Multimodal Large Language Models on Visual Table Attribution

1️⃣ 一句话总结

这篇论文研究发现，当前的多模态大语言模型在回答基于表格的问题时，虽然能给出正确答案，但很难准确地指出答案具体来源于表格中的哪些行和列，这使得它们在需要透明度和可追溯性的应用中并不可靠。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.11858

arXiv 提交日期: 2026-02-12

multi-modal model training model evaluation multimodal llms fine-grained perception knowledge distillation visual question answering benchmark

无需放大：面向细粒度多模态感知的区域到图像蒸馏 / Zooming without Zooming: Region-to-Image Distillation for Fine-Grained Multimodal Perception

1️⃣ 一句话总结

这篇论文提出了一种名为‘区域到图像蒸馏’的新训练方法，它能让多模态大语言模型在单次前向推理中就具备强大的细粒度视觉识别能力，从而避免了传统方法需要反复放大图像区域所带来的高延迟问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.10154

arXiv 提交日期: 2026-02-09

multi-modal systems agents extended reality privacy preservation edge computing collaboration multimodal llms

PRISM-XR：利用多模态大语言模型赋能隐私感知的XR协作 / PRISM-XR: Empowering Privacy-Aware XR Collaboration with Multimodal Large Language Models

1️⃣ 一句话总结

这篇论文提出了一个名为PRISM-XR的新框架，它通过在边缘服务器上智能过滤敏感信息，并设计轻量级的同步机制，解决了扩展现实环境中使用多模态大语言模型进行协作时面临的严重隐私泄露和动态适应难题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.03677

arXiv 提交日期: 2026-02-03

multi-modal llm model evaluation modality arbitration information flow attention mechanisms causal intervention multimodal llms

指令锚点：剖析多模态仲裁的因果动态机制 / Instruction Anchors: Dissecting the Causal Dynamics of Modality Arbitration

1️⃣ 一句话总结

这篇论文揭示了多模态大语言模型如何根据用户指令选择性地利用图像或文本信息的内在机制，发现少数关键的注意力头主导了这一决策过程，并且通过微小的干预就能显著改变模型的行为。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.03681

1️⃣ 一句话总结

arXiv ID: 2603.02546

1️⃣ 一句话总结

arXiv ID: 2603.02789

1️⃣ 一句话总结

arXiv ID: 2602.21950

1️⃣ 一句话总结

arXiv ID: 2602.20980

1️⃣ 一句话总结

arXiv ID: 2602.19534

1️⃣ 一句话总结

arXiv ID: 2602.15769

1️⃣ 一句话总结

arXiv ID: 2602.11858

1️⃣ 一句话总结

arXiv ID: 2602.10154

1️⃣ 一句话总结

arXiv ID: 2602.03677

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.03681 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.02546 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.02789 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.21950 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.20980 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.19534 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.15769 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.11858 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.10154 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.03677 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.03681

arXiv ID: 2603.02546

arXiv ID: 2603.02789

arXiv ID: 2602.21950

arXiv ID: 2602.20980

arXiv ID: 2602.19534

arXiv ID: 2602.15769

arXiv ID: 2602.11858

arXiv ID: 2602.10154

arXiv ID: 2602.03677