arXiv ID:
2605.28814
基于双向进化搜索的自我改进语言模型 / Self-Improving Language Models with Bidirectional Evolutionary Search
1️⃣ 一句话总结
本文提出了一种名为双向进化搜索(BES)的新方法,通过结合正向的候选方案进化(如重组部分解决方案)和反向的目标分解(将复杂任务拆解为可验证的子目标),解决了传统搜索方法(如最佳N采样或树搜索)在语言模型自我改进中探索范围有限和反馈稀疏的难题,显著提升了模型在训练和推理阶段的性能。