← 返回列表

菜单

🤖 系统
📄 Abstract
正在获取摘要...
顶级标签: robotics
详细标签: vision-language-action instruction routing token sparsification efficient inference embodied ai 或 搜索:

📄 论文总结

认知对齐的视觉-语言-动作模型CogVLA

Cognition-Aligned Vision-Language-Action Model CogVLA


1️⃣ 一句话总结

CogVLA是一个通过指令驱动的路由和稀疏化策略解决传统视觉-语言-动作模型计算成本高和跨模态语义退化问题的三阶段渐进式框架,在性能和效率方面均达到最先进水平。


2️⃣ 论文创新点

1. EFA-Routing

2. LFP-Routing

3. CAtten耦合注意力机制

4. 并行动作块解码


3️⃣ 主要结果与价值

实验结果亮点

实际应用价值


4️⃣ 术语表

📄 打开原文 PDF