arXiv ID:
2511.09515
WMPO:基于世界模型的视觉-语言-动作模型策略优化 / WMPO: World Model-based Policy Optimization for Vision-Language-Action Models
1️⃣ 一句话总结
这项研究提出了一种名为WMPO的新方法,让机器人能够通过内部模拟学习改进自身动作,无需在真实环境中反复试错,从而更高效地掌握复杂操作技能并具备自我纠错能力。