arXiv ID:
2603.10521
IH挑战:一个用于提升前沿大语言模型指令层级能力的训练数据集 / IH-Challenge: A Training Dataset to Improve Instruction Hierarchy on Frontier LLMs
1️⃣ 一句话总结
这篇论文提出了一个名为IH-Challenge的训练数据集,专门用来训练大语言模型学会在接收到相互冲突的指令时,能按照预设的优先级(如系统指令高于用户指令)做出正确响应,从而有效抵御恶意攻击并提升模型的安全性,实验表明使用该数据集训练能显著提升模型在这方面的能力。