🤖 系统
12-02 14:45
InternVideo-Next:迈向无需视频-文本监督的通用视频基础模型 / InternVideo-Next: Towards General Video Foundation Models without Video-Text Supervision
1️⃣ 一句话总结
这篇论文提出了一种名为InternVideo-Next的新方法,它通过创新的两阶段训练框架,无需依赖大规模视频-文本配对数据,就能构建出能同时理解视频细节和高级语义的通用视频模型,并在多个基准测试中取得了领先性能。