← 返回列表

菜单

🤖 系统
📄 Abstract - Data Selection via Influence Functions for Enhancing LLM Reasoning in RL with Verifiable Rewards
正在获取摘要...
顶级标签: llm
详细标签: data selection influence functions curriculum learning off-policy estimation sparse random projection 或 搜索:

📄 论文总结

基于影响函数的数据选择方法增强大语言模型在可验证奖励强化学习中的推理能力 / Data Selection via Influence Functions for Enhancing LLM Reasoning in RL with Verifiable Rewards


1️⃣ 一句话总结

本文提出了一种基于影响函数的数据选择方法CROPI,通过离线策略影响估计和稀疏随机投影技术,在可验证奖励强化学习中实现了高效的课程学习,仅使用10%数据即可达到2.66倍的训练加速效果。


2️⃣ 论文创新点

1. 离线策略影响估计

2. 稀疏随机投影

3. CROPI框架

4. POPI估计器


3️⃣ 主要结果与价值

结果亮点

实际价值


4️⃣ 术语表

📄 打开原文 PDF