🤖 系统
11-30 17:46
📄 论文总结
不要蒙蔽你的视觉语言动作模型:对齐视觉表征以提升分布外泛化能力 / Don't Blind Your VLA: Aligning Visual Representations for OOD Generalization
1️⃣ 一句话总结
这项研究发现,在将视觉语言模型微调为视觉语言动作模型时,简单的动作微调会损害原有的视觉理解能力,并提出了一种简单有效的方法来保持视觉表征质量,从而提升模型在未知场景下的泛化性能。