← 返回列表

🤖 系统

📄 Abstract - REPRO: Efficient Web Data Recovery via Reinforcement Learning

⏳ 正在获取摘要...

📄 论文总结

REPRO：基于强化学习的高效网络数据回收方法 / REPRO: Efficient Web Data Recovery via Reinforcement Learning

1️⃣ 一句话总结

REPRO是一种通过强化学习训练小型语言模型（4B参数）对预训练数据进行高质量忠实改写的数据回收方法，在22个下游任务上相比仅使用原始数据的基线获得4.7%-14.0%的相对准确率提升，数据效率提高2-3倍。

2️⃣ 论文创新点

1. 基于强化学习的忠实网络数据回收

创新点：使用强化学习训练小型语言模型（4B参数）进行数据改写，结合质量奖励和三个忠实度奖励函数
区别/改进：相比基于提示的大模型改写方法，降低了计算成本，更好地保持了原始数据的语义和结构
意义：为解决高质量预训练数据短缺问题提供了高效可控的路径，提升了数据利用效率

2. 多奖励函数设计

创新点：设计了一个质量奖励（DataMan评分）和三个忠实度奖励（BERTScore语义相似度、结构保持、长度对齐）
区别/改进：通过综合奖励机制确保改写数据既高质量又忠实于原始数据特征
意义：增强了回收数据的可靠性和丰富性，支持更有效的模型预训练

3. 小模型高效回收

创新点：仅使用4B参数的语言模型，通过精心设计的奖励训练实现高质量数据回收
区别/改进：超越使用70B模型的ReWire方法，甚至超过数据池扩展4倍的有基线
意义：证明小模型通过适当训练可以比大模型更有效地回收网络数据

4. GRPO强化学习训练

创新点：使用Group Relative Policy Optimization算法进行强化学习训练，通过组内归一化优势估计提升训练稳定性
区别/改进：相比传统RL方法，GRPO通过组内比较提供更稳定的训练信号
意义：提高强化学习训练的稳定性和效率

3️⃣ 主要结果与价值

结果亮点

在22个下游任务上相比仅使用原始数据的基线获得4.7%-14.0%的相对准确率提升
数据效率提高2-3倍，优于基于提示的70B模型改写方法ReWire
在400M和1.4B模型设置下都取得了最佳或次佳的核心分数
实现95%关键点支持率，相比提示方法减少遗漏关键点达92%

实际价值

无需外部大模型指导即可生成高质量回收数据，显著降低计算成本
有效解决数据受限场景下预训练数据不足的问题
避免使用合成数据导致的模型崩溃问题，提升模型泛化能力
为数据稀缺环境下的模型预训练提供了可行解决方案

4️⃣ 术语表

REPRO：一种高效的网络数据回收方法，通过强化学习训练小型语言模型对预训练数据进行高质量忠实改写
DataMan：用于评估数据质量的最先进指标，在REPRO中作为质量奖励函数，通过提示语言模型在13个标准上评估预训练数据质量
GRPO：Group Relative Policy Optimization，通过组内归一化优势估计来增强训练稳定性的强化学习算法
DCLM-Core：用于评估语言模型核心能力的基准测试，包含常识推理、语言理解、阅读理解、符号问题和世界知识等多个任务，排除CommonsenseQA后的平均中心化准确率
BERTScore：基于BERT的相似度评分，用于衡量生成文本与参考文本的语义一致性，在REPRO中作为奖励函数确保语义保持

📄 打开原文 PDF