🤖 系统
10-20 11:45
📄 论文总结
AdaMoE:用于视觉语言动作模型的自适应混合专家架构 / AdaMoE: Adaptive Mixture-of-Experts for Vision-Language-Action Models
1️⃣ 一句话总结
本文提出了一种名为AdaMoE的新型混合专家架构,通过解耦专家选择与权重分配,在保持计算效率的同时显著提升了视觉语言动作模型在机器人操作任务中的性能。
2️⃣ 论文创新点
1. 解耦路由架构
- 创新点:将路由器和尺度适配器功能分离,路由器负责多样专家选择,尺度适配器专注任务性能调整专家贡献权重
- 区别/改进:解决了单一机制必须在冲突目标间妥协的问题,使模型能同时更好满足负载平衡和任务性能两个目标
- 意义:实现了更优的优化平衡,支持更精细的专家组合,更好反映机器人操作任务的多面性
2. 独立尺度适配器
- 创新点:与传统路由器协同工作的创新组件,允许专家基于相关性被选择,同时通过路由器输出和尺度适配器输出的加性组合独立控制贡献权重
- 区别/改进:实现了专家选择的灵活性和权重分配的独立性
- 意义:更好地反映了机器人操作任务的多面性,使专家能够以更灵活的方式协作
3. 负载平衡机制
- 创新点:使用负载平衡损失防止专家崩溃,确保所有路由专家有平等激活机会
- 区别/改进:确保所有路由专家有平等激活机会,最大化专家利用率
- 意义:最大化模型容量,提高性能和泛化能力
4. 条件流匹配动作建模
- 创新点:使用条件流匹配损失函数建模动作分布,从噪声开始通过迭代去噪过程预测动作序列
- 区别/改进:从噪声开始通过迭代去噪过程预测动作序列
- 意义:实现精确的高频机器人控制
3️⃣ 主要结果与价值
结果亮点
- 在LIBERO基准测试中平均性能提升1.6%,优于传统MoE和CSMoE
- 在真实世界机器人操作任务中平均成功率比基线模型提高21.5%
- 在长视野和领域随机化任务中表现优异,复杂操作场景中表现突出
- 专家分析显示专家在不同操作阶段实现了任务依赖的专业化分工
实际价值
- 为预训练的密集VLA模型提供了高效的扩展途径
- 在传感器噪声、光照变化和物体姿态不确定性等真实世界挑战下保持鲁棒性
- 支持复杂顺序操作的分解,由不同专家处理专门子技能
- 在保持低延迟的同时提升模型性能,适合实时机器人控制
4️⃣ 术语表
- AdaMoE:一种基于预训练VLA模型权重的混合专家架构,通过将前馈层替换为稀疏激活的MoE层来扩展动作专家,并采用解耦技术将专家选择与专家权重分配分离,实现协作式专家利用而非赢家通吃
- VLA:视觉-语言-动作模型,集成视觉、语言和动作能力的统一框架,用于机器人操作任务
- π_0:基于流匹配的视觉语言动作基础模型,用于机器人控制
- load balancing loss:负载平衡损失,用于确保专家均匀利用,防止专家崩溃
- LIBERO:机器人操作数据集,包含Spatial、Object、Goal和Long四个任务套件
- Gr00t n1:一个用于通用人形机器人的开放基础模型