arXiv ID:
2604.24622
arXiv 提交日期: 2026-04-27
CF-VLA:面向视觉-语言-动作策略的高效由粗到精动作生成方法 / CF-VLA: Efficient Coarse-to-Fine Action Generation for Vision-Language-Action Policies
1️⃣ 一句话总结
本文提出了一种名为CF-VLA的两阶段动作生成框架,先快速生成粗略的动作初始状态,再单步精细修正,大幅提升了机器人动作生成的效率与性能,在多个基准测试中相比现有方法减少了75%以上的计算延迟,并取得了更高的成功率。