arXiv ID:
2511.16175
arXiv 提交日期: 2025-11-20
Mantis:一种具有解耦视觉预见能力的多功能视觉-语言-动作模型 / Mantis: A Versatile Vision-Language-Action Model with Disentangled Visual Foresight
1️⃣ 一句话总结
这篇论文提出了一个名为Mantis的新型视觉-语言-动作模型,它通过解耦视觉预见模块来减轻主干网络的负担,从而在保持强大语言理解和推理能力的同时,显著提升了机器人任务执行的准确性和泛化能力。