arXiv ID:
2602.16066
arXiv 提交日期: 2026-02-17
基于自然语言反馈改进交互式上下文学习 / Improving Interactive In-Context Learning from Natural Language Feedback
1️⃣ 一句话总结
这篇论文提出了一种新方法,通过将单次任务转化为多轮互动训练,教会大型语言模型像人一样从纠正性反馈中学习,从而显著提升了模型在数学、编程等复杂任务上的表现,甚至让小模型达到接近大模型的效果。