← 返回列表

菜单

🤖 系统
📄 Abstract - Diversity-Preserving Hybrid Reinforcement Learning Framework
正在获取摘要...
顶级标签: llm
详细标签: diversity preservation f-divergence rl fine-tuning pass@k generalization 或 搜索:

📄 论文总结

多样性保持混合强化学习框架

Diversity-Preserving Hybrid Reinforcement Learning Framework


1️⃣ 一句话总结

本文提出了DPH-RL框架,通过使用mass-covering f-divergences(如前向KL和JS散度)替代传统的反向KL散度,有效解决了强化学习微调大语言模型时的多样性崩溃问题,显著提升了多尝试性能(Pass@k)和泛化能力。


2️⃣ 论文创新点

1. DPH-RL框架

2. 训练效率优化

3. f-散度泛化方法


3️⃣ 主要结果与价值

实验结果亮点

实际应用价值


4️⃣ 术语表

📄 打开原文 PDF