arXiv ID:
2512.16922
arXiv 提交日期: 2025-12-18
通过预测下一个嵌入来构建强大的视觉学习模型 / Next-Embedding Prediction Makes Strong Vision Learners
1️⃣ 一句话总结
这篇论文提出了一种名为NEPA的新方法,它通过让模型像预测句子下一个词一样去预测图像中下一个区域的嵌入表示,从而在不需要复杂设计的情况下,成功训练出性能强大的通用视觉模型。