arXiv ID:
2604.21192
视觉-语言-动作模型在开放世界环境中的真实表现 / How VLAs (Really) Work In Open-World Environments
1️⃣ 一句话总结
本文指出当前评估视觉-语言-动作模型(VLAs)在家庭任务中的表现时,仅关注最终成功率的做法会忽略操作过程中的安全隐患和性能夸大问题,并提出了更注重鲁棒性、一致性和安全违规的评估方法,以更真实地反映模型在复杂开放场景中的实际能力。