🤖 系统
09-01 15:51
📄 论文总结
认知对齐的视觉-语言-动作模型CogVLA
Cognition-Aligned Vision-Language-Action Model CogVLA
1️⃣ 一句话总结
CogVLA是一个通过指令驱动的路由和稀疏化策略解决传统视觉-语言-动作模型计算成本高和跨模态语义退化问题的三阶段渐进式框架,在性能和效率方面均达到最先进水平。
2️⃣ 论文创新点
1. EFA-Routing
- 创新点是什么:基于Encoder-FiLM的聚合路由,将指令信息注入视觉编码器,选择性聚合和压缩双流视觉token
- 与已有方法的区别/改进:解决了视觉编码器中任务相关细粒度特征被丢弃的问题,将视觉token压缩至原始输入的25%
- 为什么有意义:形成指令感知的潜在表示,提高视觉压缩的语义保持能力
2. LFP-Routing
- 创新点是什么:基于LLM-FiLM的修剪路由,在语言模型中引入动作意图,修剪指令无关的视觉grounded token
- 与已有方法的区别/改进:解决了token跳过破坏上下文连贯性的问题,实现约50%的token剪枝率
- 为什么有意义:实现token级稀疏化,显著减少计算开销
3. CAtten耦合注意力机制
- 创新点是什么:V-L-A耦合注意力机制,结合因果视觉-语言注意力和双向动作并行解码
- 与已有方法的区别/改进:确保压缩后的感知输入仍能支持准确连贯的动作生成
- 为什么有意义:增强逻辑一致性和动作连贯性,提高最终目标对象的处理效果
4. 并行动作块解码
- 创新点是什么:使用双向注意力机制替代自回归解码,一次性预测所有未来动作
- 与已有方法的区别/改进:将K×D次前向传播减少到单次前向传播
- 为什么有意义:显著提升推理效率,支持可扩展部署
3️⃣ 主要结果与价值
实验结果亮点
- 在LIBERO基准测试中取得97.4%的最高成功率
- 训练成本降低2.5倍,推理延迟减少2.8倍
- 视觉输入减少8倍,计算负担大幅降低
- 在真实世界复杂长视野任务中取得最高子任务和整体成功率
实际应用价值
- 为构建可扩展和高效的具身AI系统提供了重要方法
- 显著提升了模型训练和推理效率,降低部署成本
- 在机器人操作任务中表现出优异的性能和泛化能力
- 支持长序列任务的高效处理,提升系统吞吐量
4️⃣ 术语表
- CogVLA:认知对齐的视觉-语言-动作模型,采用指令驱动的路由和稀疏化策略的三阶段渐进式框架
- VLA:视觉-语言-动作模型,处理视觉、语言和动作信息的跨模态系统
- LIBERO benchmark:用于评估视觉-语言-动作模型性能的基准测试,包含空间、物体、目标和长序列四种任务类型
- EFA-Routing:基于Encoder-FiLM的聚合路由,模拟视觉注意系统(VAS)的信息聚焦
- LFP-Routing:基于LLM-FiLM的修剪路由,采用移位余弦调度控制每层视觉token保留比例
- CAtten:V-L-A耦合注意力的缩写,是一种分层结合因果和双向注意力的多模态注意力机制
- 并行解码:同时预测动作块中所有动作的解码方式,使用双向注意力机制