arXiv ID:
2601.20687
arXiv 提交日期: 2026-01-28
面向本地部署小模型的正例-无标记强化学习蒸馏 / Positive-Unlabeled Reinforcement Learning Distillation for On-Premise Small Models
1️⃣ 一句话总结
本文提出了一种无需人工标注偏好或奖励模型的新方法,通过从大模型(教师模型)的黑箱生成中蒸馏偏好优化能力,使本地部署的小模型也能低成本地实现强化学习对齐,从而提升性能。