arXiv ID:
2602.10092
arXiv 提交日期: 2026-02-10
量子审计:评估大语言模型在量子计算上的推理能力极限 / Quantum-Audit: Evaluating the Reasoning Limits of LLMs on Quantum Computing
1️⃣ 一句话总结
这篇论文通过创建一个名为Quantum-Audit、包含2700个问题的全新基准测试,系统性地评估了26个大语言模型对量子计算概念的理解能力,发现顶尖模型虽然在整体上能超越人类专家平均水平,但在专家编写的题目、高级主题以及识别错误前提的批判性推理任务上表现明显不足。