arXiv最新AI论文速览速学

🔍

multi-modal ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 50 72小时内新更新论文 72h更新 270 最新: GMT: Goal-Conditioned Multimodal Transformer for 6-DOF Object Trajectory Synthesis in 3D Scenes 03-19

arXiv ID: 2511.21691

arXiv 提交日期: 2025-11-26

computer vision multi-modal model training image generation multimodal control diffusion models compositional generation spatial reasoning

画布到图像：基于多模态控制的组合式图像生成 / Canvas-to-Image: Compositional Image Generation with Multimodal Controls

1️⃣ 一句话总结

这篇论文提出了一个名为Canvas-to-Image的统一框架，通过将文本、参考图像、空间布局等多种控制信号整合到一个画布中，并采用多任务联合训练，使AI模型能够更准确地生成符合用户复杂意图的组合图像。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.21688

arXiv 提交日期: 2025-11-26

computer vision multi-modal model training 3d reconstruction spatial reasoning vision-language model geometry learning multi-view learning

G²VLM：基于几何基础的视觉语言模型，统一3D重建与空间推理 / G$^2$VLM: Geometry Grounded Vision Language Model with Unified 3D Reconstruction and Spatial Reasoning

1️⃣ 一句话总结

这篇论文提出了一个名为G²VLM的视觉语言模型，它通过整合3D重建和空间理解能力，显著提升了AI在空间推理任务上的表现，无需依赖大量难以获取的3D标注数据即可实现高效学习。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.21678

arXiv 提交日期: 2025-11-26

agents multi-modal model training multimodal memory error correction lifelong learning visual reasoning semantic schemas

具有生长与精炼多模态语义记忆的自主学习者 / Agentic Learner with Grow-and-Refine Multimodal Semantic Memory

1️⃣ 一句话总结

这篇论文提出了一个名为ViLoMem的双流记忆框架，通过分别记录视觉分心模式和逻辑推理错误，帮助多模态大模型从成功和失败的经验中学习，从而在多种任务中持续提升准确率并减少重复错误。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.21662

arXiv 提交日期: 2025-11-26

model evaluation multi-modal benchmark multimodal evaluation criteria following judge models benchmarking human alignment

多标准：在多标准遵循上对多模态评判模型进行基准测试 / Multi-Crit: Benchmarking Multimodal Judges on Pluralistic Criteria-Following

1️⃣ 一句话总结

这篇论文提出了一个名为Multi-Crit的基准测试，用于评估多模态模型在遵循多样化、细粒度评价标准方面的能力，发现现有模型在灵活遵循多标准和保持一致性方面仍有明显不足，为构建更可靠的多模态AI评估系统奠定了基础。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.21631

arXiv 提交日期: 2025-11-26

multi-modal llm model evaluation vision-language model long-context mixture-of-experts benchmark video understanding

Qwen3-VL技术报告 / Qwen3-VL Technical Report

1️⃣ 一句话总结

这篇论文介绍了通义千问系列目前最强的多模态大模型Qwen3-VL，它在文本理解、长上下文处理以及图像视频推理方面都表现卓越，并提供了从轻量到超大规模的不同版本，旨在成为现实应用中多模态智能的核心引擎。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.21579

arXiv 提交日期: 2025-11-26

multi-modal aigc video generation audio-video synchronization diffusion models cross-modal generation classifier-free guidance temporal alignment

和谐：通过跨任务协同实现音视频生成的协调统一 / Harmony: Harmonizing Audio and Video Generation through Cross-Task Synergy

1️⃣ 一句话总结

这篇论文提出了一个名为Harmony的新框架，通过跨任务协同训练、高效的全局-局部解耦交互模块以及同步增强的引导技术，解决了音视频生成中难以保持精确同步的核心难题，显著提升了生成内容的真实感和同步质量。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.21395

arXiv 提交日期: 2025-11-26

multi-modal model training llm visual reasoning latent space reinforcement learning multimodal llms knowledge distillation

Monet：超越图像和语言的潜在视觉空间推理 / Monet: Reasoning in Latent Visual Space Beyond Images and Language

1️⃣ 一句话总结

这篇论文提出了一个名为Monet的训练框架，通过让多模态大语言模型直接在潜在视觉空间中生成连续的视觉思维嵌入来进行推理，并针对训练挑战设计了专门的优化方法，显著提升了模型在真实世界感知和抽象视觉推理任务上的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.21087

arXiv 提交日期: 2025-11-26

multi-modal agents model training image editing multimodal reasoning instruction following iterative reasoning tool-use dataset

MIRA：用于图像编辑的多模态迭代推理智能体 / MIRA: Multimodal Iterative Reasoning Agent for Image Editing

1️⃣ 一句话总结

本文提出了一种名为MIRA的轻量级多模态推理智能体，它通过模拟人类多轮交互过程，逐步分析和执行图像编辑指令，显著提升了复杂指令下图像编辑的准确性和质量。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.21025

arXiv 提交日期: 2025-11-26

model evaluation multi-modal natural language processing image captioning benchmark utility evaluation multimodal llm qa-based assessment

CaptionQA：你的图像描述是否和图像本身一样有用？ / CaptionQA: Is Your Caption as Useful as the Image Itself?

1️⃣ 一句话总结

本文提出了一个名为CaptionQA的新基准，通过量化图像描述（caption）在多大程度上能替代原始图像以支持下游任务（如检索、推荐、具身AI等），来评估描述的质量，揭示了当前最先进模型生成的描述在实用性上与原始图像存在显著差距。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.20785

arXiv 提交日期: 2025-11-25

multi-modal agents model training video reasoning tool calling long-form video agentic framework multimodal chain-of-thought

LongVT：通过原生工具调用激励“长视频思维” / LongVT: Incentivizing "Thinking with Long Videos" via Native Tool Calling

1️⃣ 一句话总结

这篇论文提出了一个名为LongVT的智能框架，它模仿人类观看长视频时‘先概览再聚焦细节’的思维过程，通过让大模型自己学会‘裁剪’视频片段来逐步寻找答案，有效解决了现有模型在处理长视频时容易‘胡编乱造’的问题，并在多个评测中表现优异。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2511.21691

1️⃣ 一句话总结

arXiv ID: 2511.21688

1️⃣ 一句话总结

arXiv ID: 2511.21678

1️⃣ 一句话总结

arXiv ID: 2511.21662

1️⃣ 一句话总结

arXiv ID: 2511.21631

1️⃣ 一句话总结

arXiv ID: 2511.21579

1️⃣ 一句话总结

arXiv ID: 2511.21395

1️⃣ 一句话总结

arXiv ID: 2511.21087

1️⃣ 一句话总结

arXiv ID: 2511.21025

1️⃣ 一句话总结

arXiv ID: 2511.20785

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2511.21691 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.21688 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.21678 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.21662 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.21631 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.21579 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.21395 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.21087 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.21025 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.20785 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2511.21691

arXiv ID: 2511.21688

arXiv ID: 2511.21678

arXiv ID: 2511.21662

arXiv ID: 2511.21631

arXiv ID: 2511.21579

arXiv ID: 2511.21395

arXiv ID: 2511.21087

arXiv ID: 2511.21025

arXiv ID: 2511.20785