arXiv ID:
2604.06168
arXiv 提交日期: 2026-04-07
动作图像:通过多视角视频生成的端到端策略学习 / Action Images: End-to-End Policy Learning via Multiview Video Generation
1️⃣ 一句话总结
这篇论文提出了一种名为‘动作图像’的新方法,它将机器人的动作转化为易于理解的多视角视频片段,从而让一个现成的视频生成模型能直接作为机器人策略来使用,无需额外模块,并在多项任务中取得了出色的零样本性能。