arXiv ID:
2606.19476
上下文学习能否支持内在好奇心? / Can In-Context Learning Support Intrinsic Curiosity?
1️⃣ 一句话总结
本文探讨了能否利用大语言模型的上下文学习能力,在不进行昂贵梯度更新的情况下,高效计算“学习进步”奖励信号,从而驱动智能体自主探索数据,理论证明在一般强化学习环境中该方法存在偏差,但在非时序场景(如主动学习)中可以收敛到正确结果。