← 返回列表

🤖 系统

📄 Abstract

⏳ 正在获取摘要...

顶级标签: robotics

📄 论文总结

认知对齐的视觉-语言-动作模型CogVLA

Cognition-Aligned Vision-Language-Action Model CogVLA

1️⃣ 一句话总结

CogVLA是一个通过指令驱动的路由和稀疏化策略解决传统视觉-语言-动作模型计算成本高和跨模态语义退化问题的三阶段渐进式框架，在性能和效率方面均达到最先进水平。

2️⃣ 论文创新点

1. EFA-Routing

创新点是什么：基于Encoder-FiLM的聚合路由，将指令信息注入视觉编码器，选择性聚合和压缩双流视觉token
与已有方法的区别/改进：解决了视觉编码器中任务相关细粒度特征被丢弃的问题，将视觉token压缩至原始输入的25%
为什么有意义：形成指令感知的潜在表示，提高视觉压缩的语义保持能力

2. LFP-Routing

创新点是什么：基于LLM-FiLM的修剪路由，在语言模型中引入动作意图，修剪指令无关的视觉grounded token
与已有方法的区别/改进：解决了token跳过破坏上下文连贯性的问题，实现约50%的token剪枝率
为什么有意义：实现token级稀疏化，显著减少计算开销

3. CAtten耦合注意力机制

创新点是什么：V-L-A耦合注意力机制，结合因果视觉-语言注意力和双向动作并行解码
与已有方法的区别/改进：确保压缩后的感知输入仍能支持准确连贯的动作生成
为什么有意义：增强逻辑一致性和动作连贯性，提高最终目标对象的处理效果

4. 并行动作块解码

创新点是什么：使用双向注意力机制替代自回归解码，一次性预测所有未来动作
与已有方法的区别/改进：将K×D次前向传播减少到单次前向传播
为什么有意义：显著提升推理效率，支持可扩展部署

3️⃣ 主要结果与价值

实验结果亮点

在LIBERO基准测试中取得97.4%的最高成功率
训练成本降低2.5倍，推理延迟减少2.8倍
视觉输入减少8倍，计算负担大幅降低
在真实世界复杂长视野任务中取得最高子任务和整体成功率

实际应用价值

为构建可扩展和高效的具身AI系统提供了重要方法
显著提升了模型训练和推理效率，降低部署成本
在机器人操作任务中表现出优异的性能和泛化能力
支持长序列任务的高效处理，提升系统吞吐量

4️⃣ 术语表

CogVLA：认知对齐的视觉-语言-动作模型，采用指令驱动的路由和稀疏化策略的三阶段渐进式框架
VLA：视觉-语言-动作模型，处理视觉、语言和动作信息的跨模态系统
LIBERO benchmark：用于评估视觉-语言-动作模型性能的基准测试，包含空间、物体、目标和长序列四种任务类型
EFA-Routing：基于Encoder-FiLM的聚合路由，模拟视觉注意系统(VAS)的信息聚焦
LFP-Routing：基于LLM-FiLM的修剪路由，采用移位余弦调度控制每层视觉token保留比例
CAtten：V-L-A耦合注意力的缩写，是一种分层结合因果和双向注意力的多模态注意力机制
并行解码：同时预测动作块中所有动作的解码方式，使用双向注意力机制

📄 打开原文 PDF