arXiv ID:
2604.24763
arXiv 提交日期: 2026-04-27
Tuna-2:像素嵌入在多模态理解与生成中超越视觉编码器 / Tuna-2: Pixel Embeddings Beat Vision Encoders for Multimodal Understanding and Generation
1️⃣ 一句话总结
本文提出Tuna-2模型,通过直接使用像素嵌入而非预训练视觉编码器来处理图像,简化了多模态模型架构,同时在理解和生成任务上均达到顶尖性能,表明端到端的像素空间学习比传统的编码器方法更具优势。