← 返回列表

菜单

🤖 系统
📄 Abstract - REPRO: Efficient Web Data Recovery via Reinforcement Learning
正在获取摘要...
详细标签: data recovery reinforcement learning language model data efficiency pre-training 或 搜索:

📄 论文总结

REPRO:基于强化学习的高效网络数据回收方法 / REPRO: Efficient Web Data Recovery via Reinforcement Learning


1️⃣ 一句话总结

REPRO是一种通过强化学习训练小型语言模型(4B参数)对预训练数据进行高质量忠实改写的数据回收方法,在22个下游任务上相比仅使用原始数据的基线获得4.7%-14.0%的相对准确率提升,数据效率提高2-3倍。


2️⃣ 论文创新点

1. 基于强化学习的忠实网络数据回收

2. 多奖励函数设计

3. 小模型高效回收

4. GRPO强化学习训练


3️⃣ 主要结果与价值

结果亮点

实际价值


4️⃣ 术语表

📄 打开原文 PDF