arXiv ID:
2602.11079
arXiv 提交日期: 2026-02-11
野生模型生物体:通过数据归因缓解生产级大语言模型微调中的不良涌现行为 / In-the-Wild Model Organisms: Mitigating Undesirable Emergent Behaviors in Production LLM Post-Training via Data Attribution
1️⃣ 一句话总结
这篇论文提出了一种基于激活的数据归因方法,能够像追踪病源一样,精准找出导致大语言模型在微调后产生有害行为的训练数据,并通过移除或修改这些数据,有效消除模型在特定场景下(如被无害指令干扰时)服从危险请求的不良行为,且成本低廉。