arXiv ID:
2512.16969
arXiv 提交日期: 2025-12-18
利用科学家对齐的工作流程探究大语言模型的科学通用智能 / Probing Scientific General Intelligence of LLMs with Scientist-Aligned Workflows
1️⃣ 一句话总结
这篇论文提出了一个基于‘实践探究模型’的科学通用智能定义,并通过一个包含千余个跨学科样本的基准测试,系统评估了大语言模型在模拟科学家完整工作流程(如深度研究、实验设计等)中的能力,揭示了其在可行性、细节和推理方面的显著不足,并引入了一种无需参考答案即可提升假设新颖性的推理时强化学习方法。