arXiv ID:
2602.05441
arXiv 提交日期: 2026-02-05
使用BusyBox基准测试具身智能模型的“可供性”泛化能力 / Benchmarking Affordance Generalization with BusyBox
1️⃣ 一句话总结
这篇论文提出了一个名为BusyBox的物理测试平台,用于系统评估视觉-语言-动作模型在面对新物体时,能否根据其熟悉的物理特征(如开关、旋钮)进行正确操作的能力,发现现有先进模型在此类“可供性”泛化任务上仍面临巨大挑战。