arXiv ID:
2605.19357
arXiv 提交日期: 2026-05-19
SciCustom:一种用于大型语言模型科学能力定制化评估的框架 / SciCustom: A Framework for Custom Evaluation of Scientific Capabilities in Large Language Models
1️⃣ 一句话总结
该研究提出了SciCustom框架,通过将科学知识组织成可控制粒度的知识单元,并利用多模型投票和二分搜索等技术,能够从大规模数据中自动构建针对特定应用场景的评测基准,从而更细致、更高效地评估大型语言模型在化学和医疗等领域的实际科学能力,且无需专家标注或手动生成问题。