arXiv ID:
2606.10803
超越API:探索多模态大语言模型在物理工具使用中的极限 / Beyond APIs: Probing the Limits of MLLMs in Physical Tool Use
1️⃣ 一句话总结
本文提出了首个专门评估多模态大语言模型在现实场景中识别和规划使用物理工具能力的基准测试PhysTool-Bench,结果发现当前最先进的模型在工具感知和功能常识推理上存在严重不足,仅能完成约五分之一的任务,揭示了具身人工智能发展的关键瓶颈。