arXiv ID:
2603.15527
arXiv 提交日期: 2026-03-16
大语言模型对齐中的困境与冲突可解吗?基于优先级图的视角 / Are Dilemmas and Conflicts in LLM Alignment Solvable? A View from Priority Graph
1️⃣ 一句话总结
这篇论文通过构建一个动态的‘优先级图’模型,揭示了大语言模型在处理不同指令和价值冲突时难以实现稳定统一的对齐,并指出其易受‘优先级劫持’攻击的脆弱性,为此提出了一种运行时验证的防御方法,但同时也承认许多伦理困境在哲学上无法彻底解决,是AI对齐面临的长期挑战。