arXiv ID:
2606.19297
arXiv 提交日期: 2026-06-17
VLA模型真的知道基础知识吗?——衡量视觉-语言-动作模型中的常识与世界知识保持能力 / Does VLA Even Know the Basics? Measuring Commonsense and World Knowledge Retention in Vision-Language-Action Models
1️⃣ 一句话总结
这篇论文提出了一种名为Act2Answer的轻量化评估方法,通过让机器人用真实的物体放置动作来回答问题,从而测试视觉-语言-动作(VLA)模型在微调后是否还保留了常识和事实知识,结果发现VLA模型在简单概念上表现良好,但在复杂语义上知识有所衰减,且知识主要存储在模型的中间层。