arXiv ID:
2605.29816
arXiv 提交日期: 2026-05-28
在大语言模型中利用非对抗鲁棒性 / Harnessing non-adversarial robustness in large language models
1️⃣ 一句话总结
本文提出了一种无需重新训练整个模型的方法,通过简单的去偏微调过程,就能让大语言模型对语义相似但表述不同的提示词变化(如文字替换或输入噪声)保持稳定表现,并理论分析了影响鲁棒性的关键因素——神经网络模块中的系统性偏差偏移。