arXiv ID:
2606.11599
arXiv 提交日期: 2026-06-10
何时你的大语言模型可被操控? / When is Your LLM Steerable?
1️⃣ 一句话总结
本文提出一种通过分析模型生成早期隐藏状态来预测激活操控是否成功的方法,从而在不完成完整生成过程的情况下高效调整操控强度,大幅提升大语言模型行为控制的成功率。