arXiv ID:
2603.14628
arXiv 提交日期: 2026-03-15
s2n-bignum-bench:一个用于评估大语言模型底层代码推理能力的实用基准 / s2n-bignum-bench: A practical benchmark for evaluating low-level code reasoning of LLMs
1️⃣ 一句话总结
这篇论文提出了一个名为s2n-bignum-bench的新基准,它基于一个工业级密码库的已验证汇编代码,用于测试大语言模型能否像人类专家一样,为真实的底层程序自动生成能被形式化工具接受的证明,从而评估其超越纯数学竞赛的实际推理能力。