arXiv ID:
2601.21618
arXiv 提交日期: 2026-01-29
语义内容决定算法性能 / Semantic Content Determines Algorithmic Performance
1️⃣ 一句话总结
这篇论文通过一个名为WhatCounts的测试发现,前沿大语言模型在执行‘计数’这类简单算法任务时,其准确性会因被计数对象(如城市、化学物质)的语义类型不同而产生超过40%的波动,这表明模型并非真正执行算法,而是对算法进行与输入语义相关的近似模拟,这一特性可能广泛存在于各种LLM功能中。