arXiv ID:
2606.05737
让它简单:面向视觉-语言-动作模型的单步动作生成 / Let It Be Simple: One-Step Action Generation for Vision-Language-Action Models
1️⃣ 一句话总结
本文发现,在视觉-语言-动作模型中,由于动作预测的条件复杂而输出维度较低,直接用标准扩散训练并偏向高噪声阶段,就能实现高效的单步动作生成,无需像图像生成那样依赖复杂的多步降噪或蒸馏技术。