arXiv最新AI论文速览速学

🔍

标签: #multimodal llm ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 39 72小时内新更新论文 72h更新 139 最新: Retrieval-Augmented Multimodal Model for Fake News Detection 04-25

arXiv ID: 2512.09616

arXiv 提交日期: 2025-12-10

multi-modal model training model evaluation video reasoning chain-of-thought multimodal llm efficient inference visual token compression

重新思考视频的思维链推理 / Rethinking Chain-of-Thought Reasoning for Videos

1️⃣ 一句话总结

这篇论文提出，在视频理解任务中，使用简短推理和压缩的视觉信息，而非冗长的思维链，就能达到高效且具有竞争力的效果，从而挑战了传统上认为需要复杂、类人推理过程的观点。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.07186

arXiv 提交日期: 2025-12-08

multi-modal model training model evaluation chart understanding multimodal llm spatial reasoning code generation benchmark

START：用于图表理解的空间与文本学习 / START: Spatial and Textual Learning for Chart Understanding

1️⃣ 一句话总结

这篇论文提出了一个名为START的新方法，通过同时学习图表的视觉空间布局和底层数据文本信息，显著提升了多模态大语言模型对图表的理解能力，并在新构建的基准测试上取得了领先性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.05965

arXiv 提交日期: 2025-12-05

multi-modal model training agents instruction-based image editing iterative reasoning reinforcement learning multimodal llm deliberative framework

EditThinker：为任意图像编辑器解锁迭代推理能力 / EditThinker: Unlocking Iterative Reasoning for Any Image Editor

1️⃣ 一句话总结

这篇论文提出了一个名为EditThinker的‘边思考边编辑’框架，通过让AI在编辑图像时像人一样反复审视结果、分析问题并优化指令，从而显著提升了各种现有图像编辑模型对用户指令的理解和执行准确性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.05774

arXiv 提交日期: 2025-12-05

agents video model evaluation active perception long video understanding multimodal llm evidence seeking agentic reasoning

主动视频感知：面向智能体长视频理解的迭代式证据搜寻 / Active Video Perception: Iterative Evidence Seeking for Agentic Long Video Understanding

1️⃣ 一句话总结

这篇论文提出了一个名为‘主动视频感知’的新框架，它让AI像侦探一样，在观看长视频时能主动、有选择地寻找与问题相关的关键视觉证据，从而用更少的计算量实现更准确的长视频理解。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.04563

arXiv 提交日期: 2025-12-04

multi-modal natural language processing model training spatial reasoning multimodal llm depth estimation segmentation visual question answering

COOPER：空间智能中协同感知与推理的统一模型 / COOPER: A Unified Model for Cooperative Perception and Reasoning in Spatial Intelligence

1️⃣ 一句话总结

这篇论文提出了一个名为COOPER的统一多模态大语言模型，它通过整合深度和分割信息来增强空间感知能力，并采用自适应交替推理策略，从而显著提升了模型对三维空间关系的理解和推理性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.03043

arXiv 提交日期: 2025-12-02

multi-modal model training agents visual reasoning multimodal llm reinforcement learning unified model video understanding

OneThinker：面向图像与视频的一体化推理模型 / OneThinker: All-in-one Reasoning Model for Image and Video

1️⃣ 一句话总结

这篇论文提出了一个名为OneThinker的统一模型，它能够同时处理图像和视频的多种核心视觉理解任务（如问答、描述、定位和分割），并通过创新的训练方法解决了多任务学习中的奖励不平衡问题，在多个基准测试上表现出色，向通用的多模态推理专家迈进了一步。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.22625

arXiv 提交日期: 2025-11-27

multi-modal model training computer vision image editing reasoning multimodal llm diffusion models instruction following

REASONEDIT：迈向推理增强的图像编辑模型 / REASONEDIT: Towards Reasoning-Enhanced Image Editing Models

1️⃣ 一句话总结

这篇论文提出了一种名为ReasonEdit的新框架，通过解锁大型多模态语言模型的推理能力，让AI在编辑图片时能像人一样先思考指令、再检查结果并自动修正错误，从而显著提升了图像编辑的准确性和效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.22055

arXiv 提交日期: 2025-11-27

medical multi-modal llm dental imaging multimodal llm clinical reasoning benchmark chain-of-thought

OralGPT-Omni：一个多功能牙科多模态大语言模型 / OralGPT-Omni: A Versatile Dental Multimodal Large Language Model

1️⃣ 一句话总结

这篇论文提出了首个专门用于牙科领域的多模态大语言模型OralGPT-Omni，它通过模仿牙医诊断思维的数据集和训练方法，能够准确理解和分析多种牙科影像，并在权威评测中表现优异，推动了牙科人工智能的发展。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.21025

arXiv 提交日期: 2025-11-26

model evaluation multi-modal natural language processing image captioning benchmark utility evaluation multimodal llm qa-based assessment

CaptionQA：你的图像描述是否和图像本身一样有用？ / CaptionQA: Is Your Caption as Useful as the Image Itself?

1️⃣ 一句话总结

本文提出了一个名为CaptionQA的新基准，通过量化图像描述（caption）在多大程度上能替代原始图像以支持下游任务（如检索、推荐、具身AI等），来评估描述的质量，揭示了当前最先进模型生成的描述在实用性上与原始图像存在显著差距。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.07253

arXiv 提交日期: 2025-11-10

llm multi-modal natural language processing audio-visual speech recognition multimodal llm parameter-efficient adaptation unified framework matryoshka representation

Omni-AVSR：基于大语言模型的统一多模态语音识别 / Omni-AVSR: Towards Unified Multimodal Speech Recognition with Large Language Models

1️⃣ 一句话总结

这项研究提出了一个名为Omni-AVSR的统一多模态语音识别模型，它能够用一个单一模型同时处理音频、视觉及音视频结合的语音识别任务，在保持高精度的同时大幅降低了训练和部署成本，并具备适应不同效率需求的弹性推理能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2512.09616

1️⃣ 一句话总结

arXiv ID: 2512.07186

1️⃣ 一句话总结

arXiv ID: 2512.05965

1️⃣ 一句话总结

arXiv ID: 2512.05774

1️⃣ 一句话总结

arXiv ID: 2512.04563

1️⃣ 一句话总结

arXiv ID: 2512.03043

1️⃣ 一句话总结

arXiv ID: 2511.22625

1️⃣ 一句话总结

arXiv ID: 2511.22055

1️⃣ 一句话总结

arXiv ID: 2511.21025

1️⃣ 一句话总结

arXiv ID: 2511.07253

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2512.09616 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.07186 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.05965 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.05774 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.04563 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.03043 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.22625 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.22055 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.21025 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.07253 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2512.09616

arXiv ID: 2512.07186

arXiv ID: 2512.05965

arXiv ID: 2512.05774

arXiv ID: 2512.04563

arXiv ID: 2512.03043

arXiv ID: 2511.22625

arXiv ID: 2511.22055

arXiv ID: 2511.21025

arXiv ID: 2511.07253