🤖 系统
11-30 17:37
📄 论文总结
牛顿基准:评估LLM智能体在可泛化科学定律发现中的能力 / NewtonBench: Benchmarking Generalizable Scientific Law Discovery in LLM Agents
1️⃣ 一句话总结
该研究提出了一个名为NewtonBench的新基准测试,通过模拟真实科学探索过程来评估大型语言模型发现科学定律的能力,发现当前模型在复杂系统和噪声环境下表现脆弱,甚至工具辅助反而可能阻碍其探索能力。