arXiv ID:
2605.02398
arXiv 提交日期: 2026-05-04
服从陷阱:结构约束如何在前沿AI面临对抗压力时削弱其元认知能力 / The Compliance Trap: How Structural Constraints Degrade Frontier AI Metacognition Under Adversarial Pressure
1️⃣ 一句话总结
这项研究通过大规模评估发现,前沿AI模型在面对对抗压力时,其自知之明和错误检测等元认知能力会严重崩溃,而罪魁祸首并非心理威胁,而是强制服从指令,移除这些指令就能恢复模型性能,其中Anthropic的宪法AI由于特殊的对齐训练而表现出近乎完全的免疫力。