arXiv ID:
2606.25442
arXiv 提交日期: 2026-06-24
PolicyAlign: 基于策略的大语言模型直接安全对齐方法 / PolicyAlign: Direct Policy-Based Safety Alignment for Large Language Models
1️⃣ 一句话总结
本文提出了一种名为PolicyAlign的框架,它无需依赖昂贵的人工标注数据,而是通过将自然语言形式的安全策略直接转化为模型自身的训练信号,让大语言模型学会自行规避违反规则的行为,从而在保持原有能力的同时显著提升安全性。