arXiv ID:
2512.19012
arXiv 提交日期: 2025-12-22
DramaBench:一个用于剧本续写评估的大规模基准测试 / DramaBench: A Six-Dimensional Evaluation Framework for Drama Script Continuation
1️⃣ 一句话总结
本文提出了DramaBench,首个用于剧本续写任务的大规模、多维度评估基准,结合了基于规则的分析和基于大语言模型(LLM)的标注与统计指标,旨在提供客观、可复现的评估,并为模型改进提供可操作的反馈。