arXiv ID:
2606.01847
arXiv 提交日期: 2026-06-01
我们撒的谎:通过切空间上的分数匹配纠正视觉-语言-动作策略中的欧几里得谬误 / The Lie We Tell: Correcting the Euclidean Fallacy in Vision Language Action Policies via Score Matching on Tangent Space
1️⃣ 一句话总结
本文指出,现有机器人操控模型错误地将三维空间中的旋转和平移运动当作普通数字向量处理,导致动作不稳定且效率低下;作者提出了一种名为“李扩散演员”的新方法,通过让模型直接在旋转和平移的数学结构内部生成动作,从而避免了这些错误,在模拟和实际任务中都取得了更好的表现。