arXiv ID:
2605.25955
arXiv 提交日期: 2026-05-25
QUIET:用于评估大模型创意生成能力的多空白级联故事完形填空基准 / QUIET: A Multi-Blank Cascaded Story Cloze Benchmark for LLM Creative Generation Capability
1️⃣ 一句话总结
该论文提出了一个名为QUIET的新型评测基准,通过在故事中设置多个相互关联的空白,让大模型凭创意进行开放式填空,然后用自动化评分方法衡量答案是否既符合约束又出人意料,从而客观评估模型的创造性生成能力。