arXiv ID:
2604.11365
arXiv 提交日期: 2026-04-13
从对比中学习:基于多样化搜索轨迹合成推理路径 / Learning from Contrasts: Synthesizing Reasoning Paths from Diverse Search Trajectories
1️⃣ 一句话总结
这篇论文提出了一个名为CRPS的新框架,它通过对比分析人工智能搜索过程中成功与失败的路径差异,自动合成高质量的推理训练数据,从而用极少量数据就能训练出泛化能力更强的推理模型。