arXiv ID:
2604.25444
arXiv 提交日期: 2026-04-28
一个精炼器解锁所有模型:通过强化查询精炼实现推理时的推理激发 / One Refiner to Unlock Them All: Inference-Time Reasoning Elicitation via Reinforcement Query Refinement
1️⃣ 一句话总结
本文提出了一种名为ReQueR的模块化框架,通过强化学习训练一个独立的精炼器,在推理过程中自动将模糊的人类提问转化为清晰的逻辑步骤,从而无需微调就能显著提升多种大型语言模型的推理能力,平均性能提高2.1%。