arXiv ID:
2601.06521
arXiv 提交日期: 2026-01-10
BabyVision:超越语言的视觉推理 / BabyVision: Visual Reasoning Beyond Language
1️⃣ 一句话总结
这篇论文通过创建名为BabyVision的基准测试,揭示了当前最先进的多模态大语言模型在无需语言辅助的基础视觉推理能力上,甚至远不及三岁儿童的水平,表明它们在核心视觉感知方面存在根本性缺陷。