arXiv ID:
2602.18891
arXiv 提交日期: 2026-02-21
为科学研究编排大型语言模型智能体:一项关于多项选择题生成与评估的试点研究 / Orchestrating LLM Agents for Scientific Research: A Pilot Study of Multiple Choice Question (MCQ) Generation and Evaluation
1️⃣ 一句话总结
这项试点研究表明,通过人类研究者协调多个大型语言模型智能体,可以构建一个自动化生成和评估多项选择题的AI研究流程,虽然生成的题目在表面质量上表现优异,但在深度技能和认知参与度等方面仍与专家题目存在差距,同时研究者的角色也从直接创作转向了对整个AI工作流程的规范、编排与监督。