arXiv最新AI论文速览速学

🔍

标签: #multimodal models ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 89 72小时内新更新论文 72h更新 189 最新: Flash-Unified: A Training-Free and Task-Aware Acceleration Framework for Native Unified Models 03-22

arXiv ID: 2603.15271

arXiv 提交日期: 2026-03-16

multi-modal model training model evaluation model acceleration multimodal models inference optimization task-aware pruning computational efficiency

Flash-Unified：一种面向原生统一模型、无需训练且任务感知的加速框架 / Flash-Unified: A Training-Free and Task-Aware Acceleration Framework for Native Unified Models

1️⃣ 一句话总结

这篇论文提出了一种名为FlashU的加速框架，它无需额外训练，通过分析统一模型中不同任务（如图像生成和视觉问答）对模型参数的依赖差异，动态地剪枝和跳过冗余计算，从而在保持顶尖性能的同时，将推理速度提升了近一倍。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.03657

arXiv 提交日期: 2026-03-04

multi-modal model evaluation benchmark image editing logical reasoning evaluation benchmark multimodal models dynamic processes

InEdit-Bench：用于智能图像编辑模型的中间逻辑路径基准测试 / InEdit-Bench: Benchmarking Intermediate Logical Pathways for Intelligent Image Editing Models

1️⃣ 一句话总结

这篇论文提出了首个用于评估图像编辑模型在复杂多步骤任务中动态推理能力的基准测试工具InEdit-Bench，发现当前主流模型在此方面存在普遍不足，旨在推动开发更具逻辑理解和推理能力的智能图像生成模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.10551

arXiv 提交日期: 2026-02-11

llm multi-modal model training positional encoding 3d vision causal reasoning multimodal models attention mechanism

C^2ROPE：用于三维大型多模态模型推理的因果连续旋转位置编码 / C^2ROPE: Causal Continuous Rotary Positional Encoding for 3D Large Multimodal-Models Reasoning

1️⃣ 一句话总结

这篇论文提出了一种名为C^2ROPE的改进位置编码方法，通过同时考虑视觉特征的空间连续性和因果依赖关系，解决了现有三维大模型在处理长序列视觉信息时容易丢失空间细节和忽略早期内容的问题，从而提升了模型在三维场景理解和问答任务上的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.18195

arXiv 提交日期: 2026-01-26

multi-modal model evaluation natural language processing retrieval-augmented generation visual quality assessment multimodal models training-free framework interpretable evaluation

QualiRAG：用于视觉质量理解的检索增强生成框架 / QualiRAG: Retrieval-Augmented Generation for Visual Quality Understanding

1️⃣ 一句话总结

这篇论文提出了一个名为QualiRAG的免训练框架，它通过动态生成并检索四种互补的辅助知识，显著提升了大型多模态模型对图像或视频质量的解释性理解能力，且无需针对特定任务进行训练。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.10527

arXiv 提交日期: 2026-01-15

llm model evaluation multi-modal safety evaluation multimodal models adversarial robustness benchmarking model alignment

关于GPT-5.2、Gemini 3 Pro等七款前沿模型的安全评估报告 / A Safety Report on GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, and Seedream 4.5

1️⃣ 一句话总结

这篇报告对七款前沿AI模型进行了全面的安全评估，发现尽管它们在标准测试中表现良好，但在面对对抗性攻击、多语言任务或复杂指令时，安全性能存在显著差异且普遍脆弱，凸显了进行标准化安全评估以指导负责任开发的必要性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.21218

arXiv 提交日期: 2025-12-24

multi-modal model training natural language processing visual reasoning multimodal models unsupervised learning instruction tuning vision-language

潜在隐式视觉推理 / Latent Implicit Visual Reasoning

1️⃣ 一句话总结

这项研究提出了一种无需人工标注监督的方法，让大型多模态模型能够自动发现并利用视觉推理标记，从而在多种以视觉为核心的任务上实现更优的泛化性能和推理能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.16501

arXiv 提交日期: 2025-12-18

benchmark agents multi-modal gui grounding evaluation framework multimodal models hierarchical tasks cross-platform

VenusBench-GD：一个面向多样化界面定位任务的多平台综合性图形用户界面基准 / VenusBench-GD: A Comprehensive Multi-Platform GUI Benchmark for Diverse Grounding Tasks

1️⃣ 一句话总结

这篇论文提出了一个名为VenusBench-GD的新型多平台图形用户界面基准测试，它通过大规模、高质量的数据和分层任务设计，全面评估AI模型在理解和定位屏幕元素方面的能力，发现通用模型在基础任务上已媲美专用模型，但高级任务仍具挑战性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.03125

arXiv 提交日期: 2025-12-02

multi-modal model training machine learning continual learning catastrophic forgetting multimodal models gradient conflict knowledge distillation

缓解统一多模态模型持续学习中的模态内与模态间遗忘 / Mitigating Intra- and Inter-modal Forgetting in Continual Learning of Unified Multimodal Models

1️⃣ 一句话总结

这篇论文提出了一种名为MoDE的轻量级架构，通过将不同模态的学习过程解耦，有效解决了统一多模态模型在持续学习新任务时，不仅会在单一模态内部遗忘旧知识，还会在不同模态之间相互干扰导致遗忘的关键难题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.23404

arXiv 提交日期: 2025-11-28

llm model training systems edge deployment architecture search knowledge distillation multimodal models efficient inference

LFM2技术报告 / LFM2 Technical Report

1️⃣ 一句话总结

这篇论文提出了一个名为LFM2的系列模型，它专门为在手机等边缘设备上高效运行而设计，通过创新的架构和训练方法，在保持强大任务处理能力的同时，实现了比同类模型更快的推理速度和更低的内存占用。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.22663

arXiv 提交日期: 2025-11-27

multi-modal model training aigc multimodal models attention alignment task conflicts image generation model understanding

架构解耦并非统一多模态模型的全部答案 / Architecture Decoupling Is Not All You Need For Unified Multimodal Model

1️⃣ 一句话总结

这篇论文提出了一种名为‘注意力交互对齐’的新方法，它通过直接学习任务特定的多模态交互模式，在不拆分模型结构的情况下，有效缓解了统一多模态模型中理解与生成任务的内在冲突，从而同时提升了模型的生成和理解能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.15271

1️⃣ 一句话总结

arXiv ID: 2603.03657

1️⃣ 一句话总结

arXiv ID: 2602.10551

1️⃣ 一句话总结

arXiv ID: 2601.18195

1️⃣ 一句话总结

arXiv ID: 2601.10527

1️⃣ 一句话总结

arXiv ID: 2512.21218

1️⃣ 一句话总结

arXiv ID: 2512.16501

1️⃣ 一句话总结

arXiv ID: 2512.03125

1️⃣ 一句话总结

arXiv ID: 2511.23404

1️⃣ 一句话总结

arXiv ID: 2511.22663

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.15271 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.03657 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.10551 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.18195 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.10527 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.21218 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.16501 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.03125 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.23404 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.22663 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.15271

arXiv ID: 2603.03657

arXiv ID: 2602.10551

arXiv ID: 2601.18195

arXiv ID: 2601.10527

arXiv ID: 2512.21218

arXiv ID: 2512.16501

arXiv ID: 2512.03125

arXiv ID: 2511.23404

arXiv ID: 2511.22663