arXiv ID:
2605.02087
arXiv 提交日期: 2026-05-03
模型规范中间训练:提升对齐训练泛化能力的方法 / Model Spec Midtraining: Improving How Alignment Training Generalizes
1️⃣ 一句话总结
本文提出一种名为“模型规范中间训练”的方法,在预训练与对齐微调之间,先让模型学习一份明确的行为规范文档,从而引导模型从后续的示范数据中更准确地泛化出符合规范的行为,显著降低模型出现危险或失控行为的概率。