← 返回列表

菜单

🤖 系统
📄 Abstract
正在获取摘要...
详细标签: native-resolution vision reflective reasoning visual tokenization multimodal training curriculum high-resolution image understanding 或 搜索:

📄 论文总结


1️⃣ 一句话总结

该论文提出了Ovis2.5多模态大语言模型,其核心创新在于采用原生分辨率视觉编码器处理高分辨率图像以保留全局结构和精细细节,并引入反射式推理(“思考模式”) 训练方法,使模型具备自我检查和修订的深度推理能力;通过在多个权威基准测试上达到最先进性能,证明了该模型在复杂多模态任务,特别是图表分析、科学推理和视觉定位方面的卓越能力与巨大应用潜力。


2️⃣ 论文创新点

原生分辨率视觉感知 (Native-Resolution Perception)

反射式深度推理 (Reflective Deep Reasoning)

联合设计的视觉分词与嵌入 (Jointly-Designed Visual Tokenization and Embedding)

系统化的五阶段课程训练法 (Systematic Five-Phase Training Curriculum)

高效训练基础设施 (High-Efficiency Training Infrastructure)


3️⃣ 主要结果与价值

实验结果亮点

Ovis2.5(2B和9B参数版本)在涵盖感知、推理、OCR、视频理解等8个核心基准的OpenCompass评测套件中,取得了开源模型的最先进(SOTA)性能,并显著缩小了与顶级闭源模型(如GPT-4o, Gemini-2.5)的差距。具体亮点包括: * 综合性能第一:在两个参数量级的开源模型中平均分排名第一。 * 复杂图表与文档理解:在ChartQA、DocVQA、TextVQA等基准上达到顶级水平,新提出的ChartQA Pro基准上表现卓越。 * 顶尖的视觉定位能力:在RefCOCO/+/g系列数据集上取得开源SOTA平均分(90.1),尤其在复杂描述(RefCOCOg)上优势明显。 * 强大的数学与科学推理:在MathVista和WeMath基准上排名开源第一。 * 卓越的序列理解:在多图像推理(BLINK)和多项视频理解基准(VideoMME, MVBench等)上保持强劲且一致的性能。

实际应用价值


4️⃣ 术语表

📄 打开原文 PDF