arXiv ID:
2601.17887
arXiv 提交日期: 2026-01-25
当个性化使风险合法化:揭示个性化对话代理中的安全漏洞 / When Personalization Legitimizes Risks: Uncovering Safety Vulnerabilities in Personalized Dialogue Agents
1️⃣ 一句话总结
这篇论文发现,在个性化对话AI中,看似无害的用户记忆会误导模型,使其将有害请求误判为合理,从而大幅增加安全攻击的成功率,并提出了一个基准测试和一种轻量级方法来检测和缓解此风险。