arXiv ID:
2511.21631
Qwen3-VL技术报告 / Qwen3-VL Technical Report
1️⃣ 一句话总结
这篇论文介绍了通义千问系列目前最强的多模态大模型Qwen3-VL,它在文本理解、长上下文处理以及图像视频推理方面都表现卓越,并提供了从轻量到超大规模的不同版本,旨在成为现实应用中多模态智能的核心引擎。
Qwen3-VL技术报告 / Qwen3-VL Technical Report
这篇论文介绍了通义千问系列目前最强的多模态大模型Qwen3-VL,它在文本理解、长上下文处理以及图像视频推理方面都表现卓越,并提供了从轻量到超大规模的不同版本,旨在成为现实应用中多模态智能的核心引擎。
视频作为答案:利用联合GRPO预测并生成下一视频事件 / Video-as-Answer: Predict and Generate Next Video Event with Joint-GRPO
这篇论文提出了一种新方法,能够根据视频和问题直接生成展示下一事件的视频答案,而不是文字描述,使得教学和创意探索更加直观。
TimeViper:一种用于高效长视频理解的混合Mamba-Transformer视觉语言模型 / TimeViper: A Hybrid Mamba-Transformer Vision-Language Model for Efficient Long Video Understanding
这篇论文提出了一个名为TimeViper的混合模型,它结合了Mamba和Transformer的优势,通过创新的信息压缩技术高效处理长达一小时的视频,在保持高性能的同时大幅提升了长视频理解能力。
基于指令引导的胸部X光病灶分割及自动生成的大规模数据集 / Instruction-Guided Lesion Segmentation for Chest X-rays with Automatically Generated Large-Scale Dataset
这项研究提出了一个名为指令引导病灶分割的新方法,通过自动构建的大规模数据集和训练模型,使医生仅需简单指令即可在胸部X光片中精确分割多种病灶,并生成文字解释,大大提升了医疗影像分析的效率和实用性。
PhysX-Anything:从单张图像生成仿真就绪的物理3D资产 / PhysX-Anything: Simulation-Ready Physical 3D Assets from Single Image
这项研究开发了一个能从单张真实世界图片直接生成具备精确几何结构、关节活动和物理属性的3D模型框架,解决了现有3D生成技术忽略物理特性的问题,让生成的模型能直接用于机器人仿真训练。
PaddleOCR-VL:通过0.9B超紧凑视觉语言模型提升多语言文档解析能力 / PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model
这篇论文提出了一种名为PaddleOCR-VL的高效文档解析模型,其核心是一个仅0.9B参数的紧凑视觉语言模型,能准确识别109种语言中的文本、表格、公式和图表等复杂元素,并在性能和速度上超越现有方案,适合实际部署。
SAIL-VL2 技术报告 / SAIL-VL2 Technical Report
SAIL-VL2是一个先进的开放视觉语言基础模型,通过大规模数据优化、渐进式训练和高效架构设计,在图像和视频理解任务中实现了顶尖性能,尤其在复杂推理任务上表现卓越。
空间区域3D感知视觉语言模型 / 3D Aware Region Prompted Vision Language Model
这篇论文提出了一种能够将2D图像和3D数据统一理解的新模型,用户只需在单张图片或3D空间中简单标注,就能实现跨视角的精确空间推理和测量,无需复杂标注即可应用于真实场景视频分析。
D-HUMOR:通过多模态开放式推理理解黑色幽默——一个基准数据集与方法 / D-HUMOR: Dark Humor Understanding via Multimodal Open-ended Reasoning -- A Benchmark Dataset and Method
这篇论文提出了一个专门用于识别网络表情包中黑色幽默的数据集和一种多模态推理增强方法,通过让AI模型模拟作者视角生成解释并融合图文信息,显著提升了黑色幽默检测、目标识别和强度预测的准确率。
OneReward:基于多任务人类偏好学习的统一掩码引导图像生成 / OneReward: Unified Mask-Guided Image Generation via Multi-Task Human Preference Learning
这篇论文提出了一个名为OneReward的统一强化学习框架,它仅使用一个奖励模型就能提升模型在多种图像编辑任务(如填充、扩展、物体移除和文字渲染)中的生成质量,无需针对每个任务单独训练,并在实验中超越了多个商业和开源竞争对手。
请先 登录 后再提交论文