arXiv ID:
2606.12342
arXiv 提交日期: 2026-06-10
ALIGNBEAM:通过跨词汇表对数混合实现推理时的安全对齐迁移 / ALIGNBEAM : Inference-Time Alignment Transfer via Cross-Vocabulary Logit Mixing
1️⃣ 一句话总结
本文提出ALIGNBEAM方法,无需重新训练模型,通过在每次解码时将一个安全模型的预测信号翻译并融入目标模型,从而在推理过程中将安全对齐能力从一种语言模型家族迁移到另一种,有效提升了微调后模型对有害指令的拒答率。