🤖 系统
11-30 17:56
📄 论文总结
Mantis:一种具有解耦视觉预见能力的多功能视觉-语言-动作模型 / Mantis: A Versatile Vision-Language-Action Model with Disentangled Visual Foresight
1️⃣ 一句话总结
这篇论文提出了一个名为Mantis的新型视觉-语言-动作模型,它通过解耦视觉预见模块来减轻主干网络的负担,从而在保持强大语言理解和推理能力的同时,显著提升了机器人任务执行的准确性和泛化能力。