🤖 系统
12-03 14:59
基于最少人工监督的引导式大语言模型自我演化 / Guided Self-Evolving LLMs with Minimal Human Supervision
1️⃣ 一句话总结
这篇论文提出了一个名为R-Few的引导式自我对抗学习框架,通过少量人工标注示例和基于难度的课程训练,使大语言模型能够稳定、可控地自我进化,在数学和通用推理任务上取得了显著性能提升,同时有效避免了模型在无引导自我进化中常见的性能停滞或退化问题。