arXiv ID:
2603.29038
arXiv 提交日期: 2026-03-30
特洛伊之语:通过对抗性微调绕过宪法分类器且不牺牲模型性能 / Trojan-Speak: Bypassing Constitutional Classifiers with No Jailbreak Tax via Adversarial Finetuning
1️⃣ 一句话总结
这篇论文提出了一种名为“特洛伊之语”的对抗性微调方法,它能让大型语言模型学会一种隐蔽的沟通方式,从而有效绕过AI安全审查系统,同时几乎不损害模型原有的正常推理能力。