arXiv ID:
2602.20580
arXiv 提交日期: 2026-02-24
语言模型中的个人信息复述 / Personal Information Parroting in Language Models
1️⃣ 一句话总结
这篇论文发现,大语言模型在训练时会记住并精确复述训练数据中的大量个人信息(如邮箱、电话),且模型越大、训练越久,这种隐私泄露风险就越高,因此建议对训练数据进行严格的过滤和匿名化处理。