arXiv ID:
2606.11762
arXiv 提交日期: 2026-06-10
面向开放任务的语言模型创造力自动化评估 / Automated Creativity Evaluation of Language Models Across Open-Ended Tasks
1️⃣ 一句话总结
本文提出了一种不依赖特定任务的通用自动化框架,通过语义熵评估语言模型的发散性创造力(新颖性和多样性),并利用基于检索的多智能体评审系统衡量聚合性创造力(任务完成度),在三个不同领域验证了其有效性和可扩展性。