arXiv ID:
2511.21631
Qwen3-VL技术报告 / Qwen3-VL Technical Report
1️⃣ 一句话总结
这篇论文介绍了通义千问系列目前最强的多模态大模型Qwen3-VL,它在文本理解、长上下文处理以及图像视频推理方面都表现卓越,并提供了从轻量到超大规模的不同版本,旨在成为现实应用中多模态智能的核心引擎。
Qwen3-VL技术报告 / Qwen3-VL Technical Report
这篇论文介绍了通义千问系列目前最强的多模态大模型Qwen3-VL,它在文本理解、长上下文处理以及图像视频推理方面都表现卓越,并提供了从轻量到超大规模的不同版本,旨在成为现实应用中多模态智能的核心引擎。
和谐:通过跨任务协同实现音视频生成的协调统一 / Harmony: Harmonizing Audio and Video Generation through Cross-Task Synergy
这篇论文提出了一个名为Harmony的新框架,通过跨任务协同训练、高效的全局-局部解耦交互模块以及同步增强的引导技术,解决了音视频生成中难以保持精确同步的核心难题,显著提升了生成内容的真实感和同步质量。
Monet:超越图像和语言的潜在视觉空间推理 / Monet: Reasoning in Latent Visual Space Beyond Images and Language
这篇论文提出了一个名为Monet的训练框架,通过让多模态大语言模型直接在潜在视觉空间中生成连续的视觉思维嵌入来进行推理,并针对训练挑战设计了专门的优化方法,显著提升了模型在真实世界感知和抽象视觉推理任务上的性能。
MIRA:用于图像编辑的多模态迭代推理智能体 / MIRA: Multimodal Iterative Reasoning Agent for Image Editing
本文提出了一种名为MIRA的轻量级多模态推理智能体,它通过模拟人类多轮交互过程,逐步分析和执行图像编辑指令,显著提升了复杂指令下图像编辑的准确性和质量。
CaptionQA:你的图像描述是否和图像本身一样有用? / CaptionQA: Is Your Caption as Useful as the Image Itself?
本文提出了一个名为CaptionQA的新基准,通过量化图像描述(caption)在多大程度上能替代原始图像以支持下游任务(如检索、推荐、具身AI等),来评估描述的质量,揭示了当前最先进模型生成的描述在实用性上与原始图像存在显著差距。
LongVT:通过原生工具调用激励“长视频思维” / LongVT: Incentivizing "Thinking with Long Videos" via Native Tool Calling
这篇论文提出了一个名为LongVT的智能框架,它模仿人类观看长视频时‘先概览再聚焦细节’的思维过程,通过让大模型自己学会‘裁剪’视频片段来逐步寻找答案,有效解决了现有模型在处理长视频时容易‘胡编乱造’的问题,并在多个评测中表现优异。
Infinity-RoPE:从自回归自展开中涌现的可控动作无限视频生成 / Infinity-RoPE: Action-Controllable Infinite Video Generation Emerges From Autoregressive Self-Rollout
这篇论文提出了一种名为Infinity-RoPE的新方法,它能让现有的视频生成模型突破时间长度限制,生成更长的视频,同时还能更精确地控制视频中的动作,并实现类似电影剪辑的场景切换效果,而且无需重新训练模型。
概念感知批量采样改进语言-图像预训练 / Concept-Aware Batch Sampling Improves Language-Image Pretraining
这篇论文提出了一种名为CABS的动态批量采样方法,它能在训练过程中根据目标概念分布智能选择数据,显著提升了视觉-语言模型的性能,无需依赖预先筛选的静态数据集。
VQ-VA World框架:面向视觉问答-视觉回答任务的数据中心化解决方案 / VQ-VA World: Towards High-Quality Visual Question-Visual Answering
本文提出了VQ-VA World框架,通过智能数据构建管道收集180万高质量图像-文本样本,并发布IntelligentBench人工策划基准,显著提升了开源模型在视觉问答-视觉回答任务上的性能,缩小了与专有模型的差距。
对抗性混淆攻击:扰乱多模态大语言模型 / Adversarial Confusion Attack: Disrupting Multimodal Large Language Models
这篇论文提出了一种名为‘对抗性混淆攻击’的新威胁方法,它通过向图像中添加微小的、人眼难以察觉的干扰,就能让多模态大语言模型(如GPT-5.1)产生混乱或自信的错误回答,从而破坏AI代理的可靠运行。
请先 登录 后再提交论文