2509.02040 – Summary

📄 Abstract - Genetic Prompt Framework: Enhancing Synthetic Data Generation by Combining Genetic Algorithms with Large Language Models

⏳ 正在获取摘要...

📄 论文总结

遗传提示框架：结合遗传算法与大型语言模型增强合成数据生成

Genetic Prompt Framework: Enhancing Synthetic Data Generation by Combining Genetic Algorithms with Large Language Models

1️⃣ 一句话总结

本文提出了一种名为Genetic Prompt的创新框架，通过将文本语义属性视为基因序列，并利用大型语言模型模拟遗传操作（交叉和变异），结合主动学习策略优化父代选择，从而自动生成高质量、多样化的合成数据，显著提升了下游NLP任务的性能，尤其在数据稀缺和类别不平衡场景下表现突出。

2️⃣ 论文创新点

1. 语义级遗传算法框架

创新点是什么：将遗传算法与大型语言模型结合，把文本的语义属性（如写作风格、句子结构、实体关系等）视为基因序列，利用LLM模拟交叉和变异操作生成合成数据。
与已有方法的区别/改进：无需预定义属性值，减少了人工偏差，通过单轮交互识别基因，生成更接近真实数据分布的合成数据。
为什么有意义：为NLP任务提供了一种自动化和可扩展的高质量合成数据生成方法，特别适用于数据稀缺或类别不平衡的场景。

2. 主动学习父代选择策略

创新点是什么：采用主动学习策略替代传统的基于适应度的选择方法，在每一代中选择未使用过的、多样化的父代进行配对，最大化语义距离。
与已有方法的区别/改进：通过计算语义表示的欧几里得距离，最大化后代搜索空间，避免了传统方法中个体样本适应度评估不可靠的问题。
为什么有意义：提高了合成数据生成的覆盖范围和可扩展性，确保了生成数据的多样性。

3. 语义级交叉与变异机制

创新点是什么：利用LLM的理解和推理能力在语义层面执行交叉和变异操作，随机混合父代文本的关键元素并针对语义层面（如实体关系、情感极性）进行修改。
与已有方法的区别/改进：相比简单的词汇替换，能产生更有意义的语义变化，更好地结合父代文本的结构和表达。
为什么有意义：生成既保留关键内容又具有多样性的混合后代文本，显著扩大进化搜索空间。

3️⃣ 主要结果与价值

实验结果亮点

在8个不同领域数据集（如StackExchange、ChemProt、DDI等）上的实验表明，Genetic Prompt在内在指标（APS、CMD、词汇量）上优于现有基线方法（SimPrompt、AttrPrompt、Curated LLM），甚至在某些数据集上超过真实数据。
下游任务评估显示，Genetic Prompt一致性地优于其他方法，使用GPT-4o时性能最佳，与真实数据融合后平均micro-F1收益达1.85%，是唯一能提升文本摘要任务（如SciTLDR RougeL +0.5）的方法。
在类别不平衡数据集上，macro-F1提升显著高于micro-F1，表明对少数类别的改进尤为突出，实现了更公平的跨类别表现。

实际应用价值

为利用合成数据增强真实数据集提供了有效途径，显著提升下游模型性能，平均micro-F1增益达1.85%。
在数据稀缺或类别不平衡场景中特别有效，能为每个类别提供丰富多样的样本，解决原始数据类别不平衡问题。
展示了良好的可扩展性，随着数据量增加性能持续改进，且生成器模型大小的影响具有任务依赖性，为选择合适的生成器规模和合成数据量提供了实证依据。

4️⃣ 术语表

Genetic Prompt：一种结合遗传算法和大型语言模型（LLMs）的框架，用于条件性合成数据生成，通过模拟遗传操作（如交叉和变异）来增强数据质量和多样性，将文本语义属性视为基因序列进行处理。
主动学习 (Active Learning)：一种机器学习策略，用于优化父代选择过程，通过选择信息量最大或最多样化的样本进行学习，以扩大搜索空间和提高数据生成效率。
文本基因：数据中的重要属性，如长度、句子结构、实体接近度、极性等，被视为文本的基因，用于交叉和变异操作。
Ins_GA：遗传算法提示模板，用于指导LLM生成特定类别的文本。
Central Moment Discrepancy (CMD)：中心矩差异，用于量化合成数据与真实数据之间分布偏差的指标。
macro-F1：宏平均F1分数，对每个类别平等加权，更能反映模型在少数类别上的性能。
LLMs (Large Language Models)：大型语言模型，是跨多样领域合成数据生成的关键驱动力。
synthetic data：通过LLMs生成的合成数据，用于提升下游任务性能。

← 返回列表

菜单

📄 论文总结

1️⃣ 一句话总结

2️⃣ 论文创新点

1. 语义级遗传算法框架

2. 主动学习父代选择策略

3. 语义级交叉与变异机制

3️⃣ 主要结果与价值

实验结果亮点

实际应用价值

4️⃣ 术语表

密码管理

设置密码

修改密码

移除密码

菜单

📄 论文总结

1️⃣ 一句话总结

2️⃣ 论文创新点

1. 语义级遗传算法框架

2. 主动学习父代选择策略

3. 语义级交叉与变异机制

3️⃣ 主要结果与价值

实验结果亮点

实际应用价值

4️⃣ 术语表

获取最新论文摘要