arXiv ID:
2603.14723
arXiv 提交日期: 2026-03-16
超越信条:一种非身份安全条件——低数据LoRA微调中身份框架的强有力实证替代方案 / Beyond Creed: A Non-Identity Safety Condition A Strong Empirical Alternative to Identity Framing in Low-Data LoRA Fine-Tuning
1️⃣ 一句话总结
这篇论文通过实验发现,在提升AI模型安全性的微调过程中,使用不强调AI身份的普通规则说明,比刻意强调AI身份(如“我是一个无害的AI”)的“信条式”框架效果更好,且不影响模型的其他能力。