arXiv ID:
2510.14979
arXiv 提交日期: 2025-10-16
从像素到词汇——构建大规模原生视觉语言基础模型 / From Pixels to Words -- Towards Native Vision-Language Primitives at Scale
1️⃣ 一句话总结
这篇论文提出了构建原生视觉语言模型(VLM)的核心原则,并发布了名为NEO的新型模型系列,通过统一架构有效融合视觉与语言能力,在少量数据下实现与顶尖模块化模型相媲美的性能。