arXiv ID:
2606.09828
arXiv 提交日期: 2026-06-08
用于视频世界模型的潜在空间记忆 / Latent Spatial Memory for Video World Models
1️⃣ 一句话总结
本文提出了一种名为Mirage的新方法,通过在扩散模型的潜在空间中直接存储和查询3D场景信息,避免了传统方法中反复进行像素级渲染和编码的计算开销与信息损失,从而实现了更快速、更节省内存的视频生成,并在视频重建质量上达到领先水平。