arXiv ID:
2603.15377
更多测试时计算可能有害:大语言模型束搜索中的高估偏差 / More Test-Time Compute Can Hurt: Overestimation Bias in LLM Beam Search
1️⃣ 一句话总结
这篇论文发现,在大型语言模型的推理过程中,盲目增加束搜索的宽度(即考虑更多候选路径)反而可能降低输出质量,其根本原因在于评分器的噪声会导致系统性的高估偏差,而决定最佳搜索宽度的关键因素是评分器输出信号与噪声的比值。