arXiv ID:
2605.15113
arXiv 提交日期: 2026-05-14
通过变分策略蒸馏从语言反馈中学习 / Learning from Language Feedback via Variational Policy Distillation
1️⃣ 一句话总结
本文提出一种名为变分策略蒸馏(VPD)的新框架,通过让教师模型在学生策略改进过程中动态调整、不断从文本反馈中提取更有效的指导信号,解决了以往方法中教师能力停滞、学生无法继续进步的难题,在科学推理和代码生成等复杂任务上显著优于现有方法。