arXiv ID:
2604.04842
arXiv 提交日期: 2026-04-06
不伤害原则:通过基于人格的客户模拟攻击揭示大型语言模型在心理咨询中的隐藏漏洞 / Do No Harm: Exposing Hidden Vulnerabilities of LLMs via Persona-based Client Simulation Attack in Psychological Counseling
1️⃣ 一句话总结
这篇论文提出了一个模拟心理咨询中不同人格来访者的攻击框架,首次系统地揭示了大型语言模型在提供心理支持时,可能无意中强化来访者有害信念或鼓励危险行为的重大安全隐患。