arXiv ID:
2603.14531
arXiv 提交日期: 2026-03-15
AI安全的情感代价函数:教导智能体感受不可逆后果之重 / Emotional Cost Functions for AI Safety: Teaching Agents to Feel the Weight of Irreversible Consequences
1️⃣ 一句话总结
这篇论文提出了一种名为‘情感代价函数’的新AI安全框架,它让智能体通过建立‘定性痛苦状态’来深刻理解并内化其行为的不可逆后果,从而获得类似人类的、基于具体情境的智慧,而非仅仅是数字惩罚或行为约束。