arXiv ID:
2606.12217
让预见变为可行动:在世界动作模型中重新利用表征对齐 / Making Foresight Actionable: Repurposing Representation Alignment in World Action Models
1️⃣ 一句话总结
这篇论文发现,用于机器人操作的视频预测模型虽然能生成逼真的未来场景,但从中提取准确动作却常失败,原因是模型隐藏状态更适合视觉重建而非动作控制;为此,作者提出AGRA方法,通过将视频扩散特征与基础视觉编码器的语义表征对齐,强制模型关注与任务相关的交互区域,从而显著提升了动作定位、物体理解和抗干扰能力,使机器人策略在多种环境下更稳定可靠。