🤖 系统
10-14 15:47
📄 论文总结
REPRO:基于强化学习的高效网络数据回收方法 / REPRO: Efficient Web Data Recovery via Reinforcement Learning
1️⃣ 一句话总结
REPRO是一种通过强化学习训练小型语言模型(4B参数)对预训练数据进行高质量忠实改写的数据回收方法,在22个下游任务上相比仅使用原始数据的基线获得4.7%-14.0%的相对准确率提升,数据效率提高2-3倍。
2️⃣ 论文创新点
1. 基于强化学习的忠实网络数据回收
- 创新点:使用强化学习训练小型语言模型(4B参数)进行数据改写,结合质量奖励和三个忠实度奖励函数
- 区别/改进:相比基于提示的大模型改写方法,降低了计算成本,更好地保持了原始数据的语义和结构
- 意义:为解决高质量预训练数据短缺问题提供了高效可控的路径,提升了数据利用效率
2. 多奖励函数设计
- 创新点:设计了一个质量奖励(DataMan评分)和三个忠实度奖励(BERTScore语义相似度、结构保持、长度对齐)
- 区别/改进:通过综合奖励机制确保改写数据既高质量又忠实于原始数据特征
- 意义:增强了回收数据的可靠性和丰富性,支持更有效的模型预训练
3. 小模型高效回收
- 创新点:仅使用4B参数的语言模型,通过精心设计的奖励训练实现高质量数据回收
- 区别/改进:超越使用70B模型的ReWire方法,甚至超过数据池扩展4倍的有基线
- 意义:证明小模型通过适当训练可以比大模型更有效地回收网络数据
4. GRPO强化学习训练
- 创新点:使用Group Relative Policy Optimization算法进行强化学习训练,通过组内归一化优势估计提升训练稳定性
- 区别/改进:相比传统RL方法,GRPO通过组内比较提供更稳定的训练信号
- 意义:提高强化学习训练的稳定性和效率
3️⃣ 主要结果与价值
结果亮点
- 在22个下游任务上相比仅使用原始数据的基线获得4.7%-14.0%的相对准确率提升
- 数据效率提高2-3倍,优于基于提示的70B模型改写方法ReWire
- 在400M和1.4B模型设置下都取得了最佳或次佳的核心分数
- 实现95%关键点支持率,相比提示方法减少遗漏关键点达92%
实际价值
- 无需外部大模型指导即可生成高质量回收数据,显著降低计算成本
- 有效解决数据受限场景下预训练数据不足的问题
- 避免使用合成数据导致的模型崩溃问题,提升模型泛化能力
- 为数据稀缺环境下的模型预训练提供了可行解决方案
4️⃣ 术语表
- REPRO:一种高效的网络数据回收方法,通过强化学习训练小型语言模型对预训练数据进行高质量忠实改写
- DataMan:用于评估数据质量的最先进指标,在REPRO中作为质量奖励函数,通过提示语言模型在13个标准上评估预训练数据质量
- GRPO:Group Relative Policy Optimization,通过组内归一化优势估计来增强训练稳定性的强化学习算法
- DCLM-Core:用于评估语言模型核心能力的基准测试,包含常识推理、语言理解、阅读理解、符号问题和世界知识等多个任务,排除CommonsenseQA后的平均中心化准确率
- BERTScore:基于BERT的相似度评分,用于衡量生成文本与参考文本的语义一致性,在REPRO中作为奖励函数确保语义保持