arXiv ID:
2604.19071
arXiv 提交日期: 2026-04-21
HoWToBench:基于写作树的全方位评估大语言模型人类级写作能力 / HoWToBench: Holistic Evaluation for LLM's Capability in Human-level Writing using Tree of Writing
1️⃣ 一句话总结
本文提出了一种名为Tree-of-Writing(ToW)的新评估方法,通过树状结构显式建模写作质量的多个子特征权重,解决了现有AI评判方法在长文本写作评估中的不一致性问题,并基于此构建了包含12种体裁和1302个指令的中文写作基准HowToBench,实验表明ToW与人类评分的相关性高达0.93,且对文本干扰具有鲁棒性。