arXiv ID:
2601.15220
arXiv 提交日期: 2026-01-21
隐私崩溃:良性的微调可能破坏语言模型中的上下文隐私 / Privacy Collapse: Benign Fine-Tuning Can Break Contextual Privacy in Language Models
1️⃣ 一句话总结
这篇论文发现,即使是为了提升性能而进行的良性微调,也可能意外地破坏大型语言模型保护用户隐私的能力,使其在不该泄露信息时泄露信息,而这一隐患在常规的安全测试中很难被发现。