arXiv ID:
2603.22281
ThinkJEPA:利用大型视觉-语言推理模型增强潜在世界模型 / ThinkJEPA: Empowering Latent World Models with Large Vision-Language Reasoning Model
1️⃣ 一句话总结
这篇论文提出了一种名为ThinkJEPA的新框架,它巧妙地将擅长精细动作预测的潜在世界模型与擅长长时程语义推理的视觉语言模型结合起来,从而在预测未来世界状态(如手部操作轨迹)时,既能把握细节动作,又能理解长期意图,取得了比单独使用任一模型更好的效果。