arXiv ID:
2601.11404
arXiv 提交日期: 2026-01-16
ACoT-VLA:面向视觉-语言-动作模型的动作思维链 / ACoT-VLA: Action Chain-of-Thought for Vision-Language-Action Models
1️⃣ 一句话总结
这篇论文提出了一种名为ACoT-VLA的新方法,它让机器人通过在动作空间中直接进行结构化思考(即生成一系列粗略的动作意图)来指导最终决策,从而比传统方法更精确地完成复杂的操作任务。