← 返回列表

🤖 系统

📄 Abstract - Vision Bridge Transformer at Scale

We introduce Vision Bridge Transformer (ViBT), a large-scale instantiation of Brownian Bridge Models designed for conditional generation. Unlike traditional diffusion models that transform noise into data, Bridge Models directly model the trajectory between inputs and outputs, creating an efficient data-to-data translation paradigm. By scaling these models to 20B and 1.3B parameters, we demonstrate their effectiveness for image and video translation tasks. To support this scale, we adopt a Transformer architecture and propose a variance-stabilized velocity-matching objective for robust training. Together, these advances highlight the power of scaling Bridge Models for instruction-based image editing and complex video translation.

顶级标签: computer vision model training multi-modal

大规模视觉桥接变换器 / Vision Bridge Transformer at Scale

1️⃣ 一句话总结

这篇论文提出了一种名为ViBT的大规模视觉桥接变换器模型，它通过直接建模输入与输出之间的转换路径，而非从噪声生成数据，从而高效地实现了图像和视频的编辑与翻译任务，并在高达200亿参数的规模上验证了其有效性。

📄 打开原文 PDF

← 返回列表

菜单

🤖 AI 深度阅读

1️⃣ 一句话总结

密码管理

设置密码

修改密码

移除密码

菜单

🤖 AI 深度阅读

1️⃣ 一句话总结

获取最新论文摘要