📄 论文总结
遗传提示框架:结合遗传算法与大型语言模型增强合成数据生成
Genetic Prompt Framework: Enhancing Synthetic Data Generation by Combining Genetic Algorithms with Large Language Models
1️⃣ 一句话总结
本文提出了一种名为Genetic Prompt的创新框架,通过将文本语义属性视为基因序列,并利用大型语言模型模拟遗传操作(交叉和变异),结合主动学习策略优化父代选择,从而自动生成高质量、多样化的合成数据,显著提升了下游NLP任务的性能,尤其在数据稀缺和类别不平衡场景下表现突出。
2️⃣ 论文创新点
1. 语义级遗传算法框架
- 创新点是什么:将遗传算法与大型语言模型结合,把文本的语义属性(如写作风格、句子结构、实体关系等)视为基因序列,利用LLM模拟交叉和变异操作生成合成数据。
- 与已有方法的区别/改进:无需预定义属性值,减少了人工偏差,通过单轮交互识别基因,生成更接近真实数据分布的合成数据。
- 为什么有意义:为NLP任务提供了一种自动化和可扩展的高质量合成数据生成方法,特别适用于数据稀缺或类别不平衡的场景。
2. 主动学习父代选择策略
- 创新点是什么:采用主动学习策略替代传统的基于适应度的选择方法,在每一代中选择未使用过的、多样化的父代进行配对,最大化语义距离。
- 与已有方法的区别/改进:通过计算语义表示的欧几里得距离,最大化后代搜索空间,避免了传统方法中个体样本适应度评估不可靠的问题。
- 为什么有意义:提高了合成数据生成的覆盖范围和可扩展性,确保了生成数据的多样性。
3. 语义级交叉与变异机制
- 创新点是什么:利用LLM的理解和推理能力在语义层面执行交叉和变异操作,随机混合父代文本的关键元素并针对语义层面(如实体关系、情感极性)进行修改。
- 与已有方法的区别/改进:相比简单的词汇替换,能产生更有意义的语义变化,更好地结合父代文本的结构和表达。
- 为什么有意义:生成既保留关键内容又具有多样性的混合后代文本,显著扩大进化搜索空间。
3️⃣ 主要结果与价值
实验结果亮点
- 在8个不同领域数据集(如StackExchange、ChemProt、DDI等)上的实验表明,Genetic Prompt在内在指标(APS、CMD、词汇量)上优于现有基线方法(SimPrompt、AttrPrompt、Curated LLM),甚至在某些数据集上超过真实数据。
- 下游任务评估显示,Genetic Prompt一致性地优于其他方法,使用GPT-4o时性能最佳,与真实数据融合后平均micro-F1收益达1.85%,是唯一能提升文本摘要任务(如SciTLDR RougeL +0.5)的方法。
- 在类别不平衡数据集上,macro-F1提升显著高于micro-F1,表明对少数类别的改进尤为突出,实现了更公平的跨类别表现。
实际应用价值
- 为利用合成数据增强真实数据集提供了有效途径,显著提升下游模型性能,平均micro-F1增益达1.85%。
- 在数据稀缺或类别不平衡场景中特别有效,能为每个类别提供丰富多样的样本,解决原始数据类别不平衡问题。
- 展示了良好的可扩展性,随着数据量增加性能持续改进,且生成器模型大小的影响具有任务依赖性,为选择合适的生成器规模和合成数据量提供了实证依据。
4️⃣ 术语表
- Genetic Prompt:一种结合遗传算法和大型语言模型(LLMs)的框架,用于条件性合成数据生成,通过模拟遗传操作(如交叉和变异)来增强数据质量和多样性,将文本语义属性视为基因序列进行处理。
- 主动学习 (Active Learning):一种机器学习策略,用于优化父代选择过程,通过选择信息量最大或最多样化的样本进行学习,以扩大搜索空间和提高数据生成效率。
- 文本基因:数据中的重要属性,如长度、句子结构、实体接近度、极性等,被视为文本的基因,用于交叉和变异操作。
- Ins_GA:遗传算法提示模板,用于指导LLM生成特定类别的文本。
- Central Moment Discrepancy (CMD):中心矩差异,用于量化合成数据与真实数据之间分布偏差的指标。
- macro-F1:宏平均F1分数,对每个类别平等加权,更能反映模型在少数类别上的性能。
- LLMs (Large Language Models):大型语言模型,是跨多样领域合成数据生成的关键驱动力。
- synthetic data:通过LLMs生成的合成数据,用于提升下游任务性能。