arXiv ID:
2511.23199
arXiv 提交日期: 2025-11-28
大规模视觉桥接变换器 / Vision Bridge Transformer at Scale
1️⃣ 一句话总结
这篇论文提出了一种名为ViBT的大规模视觉桥接变换器模型,它通过直接建模输入与输出之间的转换路径,而非从噪声生成数据,从而高效地实现了图像和视频的编辑与翻译任务,并在高达200亿参数的规模上验证了其有效性。