📄
Abstract - OmniAlpha: A Sequence-to-Sequence Framework for Unified Multi-Task RGBA Generation
Generative models have excelled in RGB synthesis, but real-world applications require RGBA manipulation. This has led to a fragmented landscape: specialized, single-task models handle alpha but lack versatility, while unified multi-task frameworks are confined to the RGB domain. To bridge this critical gap, we propose OmniAlpha, the first unified, multi-task generative framework for sequence-to-sequence RGBA image generation and editing. Its architecture features MSRoPE-BiL, a novel RoPE method with a bi-directionally extendable layer axis for its Diffusion Transformer (DiT) backbone, enabling the concurrent processing of multiple input and target RGBA layers. To power this framework, we introduce AlphaLayers, a new dataset of 1,000 high-quality, multi-layer triplets, built via a novel automated synthesis and filter pipeline. Jointly training OmniAlpha on this dataset across a comprehensive suite of 21 diverse tasks, extensive experiments demonstrate that our unified approach consistently outperforms strong, specialized baselines. Most notably, OmniAlpha achieves a dramatic 84.8% relative reduction in SAD for mask-free matting on AIM-500 and wins over 90% of human preferences in layer-conditioned completion. Our work proves that a unified, multi-task model can learn a superior shared representation for RGBA, paving the way for more powerful, layer-aware generative systems.
OmniAlpha:统一多任务RGBA图像生成与编辑框架 /
OmniAlpha: A Sequence-to-Sequence Framework for Unified Multi-Task RGBA Generation
1️⃣ 一句话总结
OmniAlpha是首个基于序列到序列扩散变换器的统一多任务RGBA图像生成与编辑框架,通过创新的MSRoPE-BiL架构和AlphaLayers数据集,在21个任务上联合训练,实现了超越专用模型的性能。
2️⃣ 论文创新点
1. 统一多任务RGBA生成框架
- 创新点:首个序列到序列的统一多任务RGBA图像生成和编辑框架,将21个不同任务统一到一个模型中
- 区别/改进:解决了现有RGBA模型碎片化问题,通过单一模型处理多种RGBA相关任务
- 意义:证明了统一多任务模型可以学习到更优的RGBA共享表示,提升泛化能力
2. MSRoPE-BiL架构
- 创新点:新颖的旋转位置编码方法,具有双向可扩展层轴的DiT骨干网络
- 区别/改进:支持多个输入和输出RGBA层的并发处理,增强模型处理序列数据的能力
- 意义:为层感知生成系统提供了技术基础,支持灵活的输入输出图像数量
3. AlphaLayers数据集
- 创新点:通过自动化合成和过滤流程构建的包含1000个高质量多层三元组的数据集
- 区别/改进:为多任务RGBA训练提供专门的数据支持,包含对齐的标题和像素级掩码
- 意义:支撑了框架的多任务训练和性能提升
4. 不透明初始化策略
- 创新点:从预训练RGB VAE初始化4通道RGBA VAE的方法,通过修改编码器和解码器的输入输出卷基层来适应alpha通道
- 区别/改进:有效利用现有RGB模型先验,快速适配RGBA生成任务,减少训练成本
- 意义:解决了RGBA生成中模型初始化难题,提升了训练效率和模型性能
3️⃣ 主要结果与价值
结果亮点
- 在AIM-500上实现84.8%的SAD相对减少,在层条件完成任务中获得超过90%的人类偏好
- 在AlphaLayersTest上的FID和CLIP-Score指标优于基线方法
- 在条件层生成任务的成对比较中获得显著更高的胜率
- 在图像抠图任务中取得最佳或接近最佳的性能指标
实际价值
- 支持专业图层工作流,突破RGB空间的限制
- 为下游编辑和透明度提供统一表示
- 减少对专业工具和单一任务模型的依赖
- 提升图像处理任务的自动化水平
4️⃣ 术语表
- OmniAlpha:统一的序列到序列多任务RGBA生成框架,基于潜在扩散范式和序列到序列架构
- AlphaLayers:包含1000个高质量多层三元组的数据集,用于图层操作任务训练
- MSRoPE-BiL:双向可扩展的多尺度旋转位置编码机制,通过引入z轴维度来区分不同图像和模态
- MMDiT:多模态扩散变换器,基于Diffusion Transformer的统一序列到序列架构
- AlphaLayersTest:用于评估层感知生成模型性能的测试数据集
- Mask-Free Image Matting:无需遮罩指导的图像抠图任务设置,仅使用任务级提示
- RORD:用于评估层分解性能的数据集
- LayerDecomp:用于对比的层分解基线方法