OmniAlpha: A Sequence-to-Sequence Framework for Unified Multi-Task RGBA Generation

📄 Abstract - OmniAlpha: A Sequence-to-Sequence Framework for Unified Multi-Task RGBA Generation

Generative models have excelled in RGB synthesis, but real-world applications require RGBA manipulation. This has led to a fragmented landscape: specialized, single-task models handle alpha but lack versatility, while unified multi-task frameworks are confined to the RGB domain. To bridge this critical gap, we propose OmniAlpha, the first unified, multi-task generative framework for sequence-to-sequence RGBA image generation and editing. Its architecture features MSRoPE-BiL, a novel RoPE method with a bi-directionally extendable layer axis for its Diffusion Transformer (DiT) backbone, enabling the concurrent processing of multiple input and target RGBA layers. To power this framework, we introduce AlphaLayers, a new dataset of 1,000 high-quality, multi-layer triplets, built via a novel automated synthesis and filter pipeline. Jointly training OmniAlpha on this dataset across a comprehensive suite of 21 diverse tasks, extensive experiments demonstrate that our unified approach consistently outperforms strong, specialized baselines. Most notably, OmniAlpha achieves a dramatic 84.8% relative reduction in SAD for mask-free matting on AIM-500 and wins over 90% of human preferences in layer-conditioned completion. Our work proves that a unified, multi-task model can learn a superior shared representation for RGBA, paving the way for more powerful, layer-aware generative systems.

OmniAlpha：统一多任务RGBA图像生成与编辑框架 / OmniAlpha: A Sequence-to-Sequence Framework for Unified Multi-Task RGBA Generation

1️⃣ 一句话总结

OmniAlpha是首个基于序列到序列扩散变换器的统一多任务RGBA图像生成与编辑框架，通过创新的MSRoPE-BiL架构和AlphaLayers数据集，在21个任务上联合训练，实现了超越专用模型的性能。

2️⃣ 论文创新点

1. 统一多任务RGBA生成框架

创新点：首个序列到序列的统一多任务RGBA图像生成和编辑框架，将21个不同任务统一到一个模型中
区别/改进：解决了现有RGBA模型碎片化问题，通过单一模型处理多种RGBA相关任务
意义：证明了统一多任务模型可以学习到更优的RGBA共享表示，提升泛化能力

2. MSRoPE-BiL架构

创新点：新颖的旋转位置编码方法，具有双向可扩展层轴的DiT骨干网络
区别/改进：支持多个输入和输出RGBA层的并发处理，增强模型处理序列数据的能力
意义：为层感知生成系统提供了技术基础，支持灵活的输入输出图像数量

3. AlphaLayers数据集

创新点：通过自动化合成和过滤流程构建的包含1000个高质量多层三元组的数据集
区别/改进：为多任务RGBA训练提供专门的数据支持，包含对齐的标题和像素级掩码
意义：支撑了框架的多任务训练和性能提升

4. 不透明初始化策略

创新点：从预训练RGB VAE初始化4通道RGBA VAE的方法，通过修改编码器和解码器的输入输出卷基层来适应alpha通道
区别/改进：有效利用现有RGB模型先验，快速适配RGBA生成任务，减少训练成本
意义：解决了RGBA生成中模型初始化难题，提升了训练效率和模型性能

3️⃣ 主要结果与价值

结果亮点

在AIM-500上实现84.8%的SAD相对减少，在层条件完成任务中获得超过90%的人类偏好
在AlphaLayersTest上的FID和CLIP-Score指标优于基线方法
在条件层生成任务的成对比较中获得显著更高的胜率
在图像抠图任务中取得最佳或接近最佳的性能指标

实际价值

支持专业图层工作流，突破RGB空间的限制
为下游编辑和透明度提供统一表示
减少对专业工具和单一任务模型的依赖
提升图像处理任务的自动化水平

4️⃣ 术语表

OmniAlpha：统一的序列到序列多任务RGBA生成框架，基于潜在扩散范式和序列到序列架构
AlphaLayers：包含1000个高质量多层三元组的数据集，用于图层操作任务训练
MSRoPE-BiL：双向可扩展的多尺度旋转位置编码机制，通过引入z轴维度来区分不同图像和模态
MMDiT：多模态扩散变换器，基于Diffusion Transformer的统一序列到序列架构
AlphaLayersTest：用于评估层感知生成模型性能的测试数据集
Mask-Free Image Matting：无需遮罩指导的图像抠图任务设置，仅使用任务级提示
RORD：用于评估层分解性能的数据集
LayerDecomp：用于对比的层分解基线方法

← 返回列表

菜单

🤖 AI 深度阅读

1️⃣ 一句话总结

2️⃣ 论文创新点

1. 统一多任务RGBA生成框架

2. MSRoPE-BiL架构

3. AlphaLayers数据集

4. 不透明初始化策略

3️⃣ 主要结果与价值

结果亮点

实际价值

4️⃣ 术语表

密码管理

设置密码

修改密码

移除密码

菜单

🤖 AI 深度阅读

1️⃣ 一句话总结

2️⃣ 论文创新点

1. 统一多任务RGBA生成框架

2. MSRoPE-BiL架构

3. AlphaLayers数据集

4. 不透明初始化策略

3️⃣ 主要结果与价值

结果亮点

实际价值

4️⃣ 术语表

获取最新论文摘要