arXiv ID:
2601.19273
arXiv 提交日期: 2026-01-27
谜语探索:文字之谜 / Riddle Quest : The Enigma of Words
1️⃣ 一句话总结
这篇论文设计了一个自动生成和评估类比谜语的系统,并用它来测试大型语言模型能否找出谜语的所有可能答案,结果发现模型虽然能猜到主要答案,但常常忽略其他合理的解释,从而揭示了谜语可以作为评估AI模型推理全面性和处理歧义能力的有效工具。