arXiv ID:
2606.25354
arXiv 提交日期: 2026-06-24
高效可训练的语言模型测试时扩展:基于局部分支路由的方法 / Efficient and Trainable Language Model Test-Time Scaling via Local Branch Routing
1️⃣ 一句话总结
本文提出了一种名为局部分支路由(LBR)的新方法,通过在解码的每一步中让语言模型并行探索少量候选词并利用轻量级路由器智能选择最佳路径,既避免了传统长链式推理的单线程瓶颈,又比全局搜索更高效,而且能够通过强化学习端到端训练,在数学推理等任务上显著提升模型性能。