📄 论文总结
COIG-Writer:中文创意写作数据集与创意生成双组件模型研究 / COIG-Writer: A Chinese Creative Writing Dataset and Dual-Component Model for Creative Generation
1️⃣ 一句话总结
本研究构建了首个包含创意推理过程的中文创意写作数据集COIG-Writer,并提出创意写作由叙事逻辑和语言表达两个独立组件构成的双组件模型,揭示了词汇多样性与创意质量的反比关系。
2️⃣ 论文创新点
1. COIG-Writer数据集
- 创新点:首个包含创意推理过程的中文创意写作数据集,包含1,665个三元组样本,涵盖51种文体,每个样本包含逆向工程提示、详细创意推理链和最终文本
- 区别/改进:相比仅提供输入-输出对的现有数据集,增加了过程监督数据,解决了创意写作中过程监督数据稀缺的问题
- 意义:特别满足了非英语语境下创意写作研究的需求,支持过程级学习创意决策
2. 逆向工程方法
- 创新点:通过多阶段验证从高质量文本中提取推理链的系统方法,采用三步逆向工程协议提取隐含的创造性推理过程
- 区别/改进:接受率达70%,并可推广到其他创意领域,通过提示重建、推理过程阐述和一致性验证的系统化流程
- 意义:为理解创造性推理提供了结构化方法,能够揭示文本创作背后的思维过程
3. 创意写作双组件模型
- 创新点:提出创意写作由叙事逻辑和语言表达两个独立组件构成的理论框架,叙事逻辑确保情节连贯,语言表达保证流畅性
- 区别/改进:将创意写作分解为可单独优化的组件,而非视为单一整体
- 意义:为理解和发展LLM的创意写作能力提供了理论基础,指明了创意AI发展方向
4. TTR悖论发现
- 创新点:发现词汇多样性指标与生成质量呈负相关,更高的词汇多样性可能对应更低的创意质量
- 区别/改进:挑战了传统关于多样性指标有效性的假设,指出在创意写作评估中需考虑连贯性等其他因素
- 意义:重新评估了自然语言生成模型的评价标准,避免过度依赖表面指标
3️⃣ 主要结果与价值
结果亮点
- 过程监督需要至少22,000个通用样本才能稳定引入专业数据的创意增强,创意与通用数据比例为1:12
- M CW+10k模型在保持较低TTR的同时实现了更好的叙事连贯性,在复杂指令任务中表现最佳
- 中文创意数据对英语生成迁移效果有限,创意能力具有语言特异性
实际价值
- 为低资源语言的创造性写作任务提供了可行方案
- 为创意写作模型训练的数据配比提供了实证依据
- 为模型性能评估提供了标准化、多维度的评估框架
4️⃣ 术语表
- COIG-Writer:中文创意写作数据集,包含1,665个高质量三元组,涵盖51种特定文体,包含提示、推理过程和文章三个组成部分
- 逆向工程方法:通过多阶段验证从高质量文本中提取推理链的系统方法
- 叙事逻辑:创意写作中的结构性规划组件,涉及故事结构和决策过程,确保情节连贯和主题一致性
- TTR:类型-标记比,用于衡量文本词汇多样性的指标,计算不同类型词汇与总词汇数的比例
- 过程监督:一种监督学习方法,通过监督推理过程来提升叙事逻辑,在数据稀缺场景下能有效提升模型的创造性写作能力
- 三元组:包含提示、推理过程和文章三个组成部分的数据结构,平均字符长度分别为283、1,089和2,214
- Qwen2.5-7B-Instruct:作为模型初始化基础的70亿参数指令调优模型