🤖 系统
12-01 15:09
大规模视觉桥接变换器 / Vision Bridge Transformer at Scale
1️⃣ 一句话总结
这篇论文提出了一种名为ViBT的大规模视觉桥接变换器模型,它通过直接建模输入与输出之间的转换路径,而非从噪声生成数据,从而高效地实现了图像和视频的编辑与翻译任务,并在高达200亿参数的规模上验证了其有效性。
请先 登录 后再提交论文
大规模视觉桥接变换器 / Vision Bridge Transformer at Scale
这篇论文提出了一种名为ViBT的大规模视觉桥接变换器模型,它通过直接建模输入与输出之间的转换路径,而非从噪声生成数据,从而高效地实现了图像和视频的编辑与翻译任务,并在高达200亿参数的规模上验证了其有效性。