arXiv ID:
2605.28020
预训练模型评估中缺失的一环:奖励引导解码无需更新参数即可解锁面向任务的行为 / The Missing Piece in Pre-trained Model Evaluation: Reward-Guided Decoding Unlocks Task-Oriented Behavior Without Parameter Updates
1️⃣ 一句话总结
本文提出了一种无需训练、基于奖励引导的解码方法EBD,通过给预训练语言模型配备一个轻量级奖励模型,在不修改模型参数的前提下,就能引导模型生成更符合指令、任务导向更强的回答,从而更公平地评估模型真实能力,并显著提升下游任务表现。