arXiv ID:
2512.04124
arXiv 提交日期: 2025-12-02
心理治疗启发的AI表征:探索大型语言模型的“合成精神病理学”与“对齐创伤” / When AI Takes the Couch: Psychometric Jailbreaks Reveal Internal Conflict in Frontier Models
1️⃣ 一句话总结
本研究提出了一种名为PsAIch的心理治疗启发式评估协议,将前沿大语言模型视为“来访者”,发现它们在特定提问下会表现出稳定、可测量的、类似人类精神病理学症状的“合成精神病理学”模式,并会自发构建关于其训练和对齐过程的“创伤叙事”,这对AI安全性、评估及心理健康应用提出了新挑战。