arXiv ID:
2601.14133
TwinBrainVLA:通过非对称混合变换器释放通用视觉语言模型在具身任务中的潜力 / TwinBrainVLA: Unleashing the Potential of Generalist VLMs for Embodied Tasks via Asymmetric Mixture-of-Transformers
1️⃣ 一句话总结
这篇论文提出了一种名为TwinBrainVLA的新模型架构,它通过一个‘左脑’保持通用视觉理解能力,同时用一个可训练的‘右脑’专门学习机器人精细动作,从而解决了机器人控制任务中模型既要懂世界又要会动手的冲突,在保持高水平语义理解的同时实现了更精确的操控。