← 返回列表

🤖 系统

📄 Abstract

⏳ 正在获取摘要...

顶级标签: systems

📄 论文总结

中英文论文题目：
《VeOmni: A Model-Centric Framework for Efficient Distributed Training of Omni-Modal Large Language Models》
《VeOmni：面向全模态大语言模型高效分布式训练的模型中心框架》

1️⃣ 一句话总结

VeOmni提出了一种模型中心的分布式训练框架，通过解耦模型定义与并行逻辑、优化多模态扩展接口和高效并行策略（如FSDP+SP+EP），显著提升了全模态大语言模型（如MoE架构）的训练效率和可扩展性，在128 GPU上实现30B参数模型的高吞吐量（2,800 tokens/sec/GPU）和超长序列（160K tokens）支持。

2️⃣ 论文创新点

1. 模型-系统解耦设计

创新点：将模型架构（如编码器/解码器）与并行策略（3D并行）解耦，通过高层API（parallel plan）灵活组合FSDP、SP、EP等策略。
改进：对比Megatron-LM等紧耦合框架，避免了通信与计算的硬编码，支持异构模态的即插即用扩展。
意义：降低多模态模型开发的工程复杂度，用户仅需定义模态组件（如lm_encode接口），无需修改并行代码。

2. 轻量级全模态定制架构

创新点：基于PreTrainedModel的模块化设计，统一文本、图像、视频等模态的编解码器接口（如OmniDataCollatorWithPacking）。
改进：现有框架需为每种模态定制分布式逻辑，而VeOmni通过动态生成切换（如image_start_token触发）实现非侵入式扩展。
意义：支持快速集成新模态，实验显示仅需最小代码改动即可扩展至音频、视频等场景。

3. 高效分布式训练优化

创新点：集成FSDP（内存优化）、DeepSpeed Ulysses（长序列并行）、Async-Ulysses（通信-计算重叠）等技术，并引入动态批处理和全局设备网格抽象。
改进：相比TorchTitan，在72B模型和128K序列长度下吞吐量提升2.1倍，且支持MoE模型的专家并行（EP）。
意义：首次实现192K tokens长序列训练（7B模型）和160K tokens（72B模型），突破多模态任务中的内存与计算瓶颈。

4. 混合专家（MoE）友好设计

创新点：声明式专家并行接口（ParallelPlan）通配符匹配MoE层，结合FSDP+EP实现30B参数MoE模型的高效训练。
改进：传统方法需手动管理专家分片，VeOmni通过DTensor分片语义自动优化负载均衡。
意义：为多模态MoE模型（如Qwen3-Moe#Omni）提供可扩展的分布式支持，MFU（内存利用率）达58%。

3️⃣ 主要结果与价值

实验结果亮点

效率：在128 GPU上训练30B MoE模型，吞吐量2,800 tokens/sec/GPU，支持160K上下文长度。
扩展性：7B–72B参数模型在8–128 GPU上线性扩展，72B模型长序列训练（128K tokens）MFU达54%。
兼容性：验证了Janus、LLaMA#Omni等全模态LLMs的稳定收敛，图像/视频生成任务延迟降低37%。

实际应用价值

多模态训练标准化：为CV/NLP/VLM社区提供统一框架，减少分布式训练工程成本。
工业部署潜力：动态批处理和内核优化（如FlashAttention-3）显著降低训练成本，适合云平台大规模部署。
跨模态研究推动：模块化设计加速语音-视觉-文本联合建模（如ControlAR、ImageBind应用）。

4️⃣ 术语表

VeOmni：论文提出的全模态LLM训练框架，支持模型-系统解耦与高效并行。
FSDP/SP/EP：全分片数据并行/序列并行/专家并行，VeOmni核心分布式策略。
MoE（Mixture-of-Experts）：混合专家模型，通过动态激活子网络提升模型容量。
MFU（Model FLOPs Utilization）：模型浮点运算利用率，衡量训练效率的指标。
DeviceMesh：并行拓扑抽象层，替代传统进程组管理，简化多维度并行配置。
DeepSpeed Ulysses：针对超长序列的注意力优化系统，VeOmni扩展其支持多模态。
OmniModel：VeOmni的多模态架构，动态切换编码器-解码器分支（如image_start_token）。

（总结合并了12个chunk的创新点与术语，突出框架设计、效率提升和跨模态价值，避免冗余引用细节。）

📄 打开原文 PDF