arXiv ID:
2512.06628
arXiv 提交日期: 2025-12-07
MIND-V:基于强化学习物理对齐的长视野机器人操作分层视频生成 / MIND-V: Hierarchical Video Generation for Long-Horizon Robotic Manipulation with RL-based Physical Alignment
1️⃣ 一句话总结
这篇论文提出了一个名为MIND-V的分层视频生成框架,它通过结合高层任务规划、行为语义转换和条件视频渲染,并引入基于强化学习的物理对齐优化,来生成物理上合理且逻辑连贯的长序列机器人操作视频,以解决机器人模仿学习中高质量长视野数据稀缺的问题。