arXiv ID:
2601.19798
arXiv 提交日期: 2026-01-27
Youtu-VL:通过统一的视觉-语言监督释放视觉潜能 / Youtu-VL: Unleashing Visual Potential via Unified Vision-Language Supervision
1️⃣ 一句话总结
这篇论文提出了一个名为Youtu-VL的新框架,它通过将视觉信息也作为模型学习的目标(而非仅仅是辅助输入),让AI模型能更精细地理解图像内容,从而在多种视觉和图文任务上取得优秀表现。