arXiv ID:
2604.18203
arXiv 提交日期: 2026-04-20
多模态大语言模型中的乘法运算:基于文本、图像和音频输入的计算 / Multiplication in Multimodal LLMs: Computation with Text, Image, and Audio Inputs
1️⃣ 一句话总结
这篇论文发现,尽管多模态大模型能准确识别不同形式(如文字、图片、声音)的数字,但在执行精确的多位数乘法运算时却普遍失败,其根本原因在于模型的计算能力不足,而非感知能力有缺陷。