arXiv ID:
2603.21975
arXiv 提交日期: 2026-03-23
SecureBreak——一个面向安全与可靠模型的数据集 / SecureBreak -- A dataset towards safe and secure models
1️⃣ 一句话总结
这篇论文提出了一个名为SecureBreak的高质量安全数据集,旨在帮助检测和过滤大语言模型因安全对齐不足而产生的有害输出,从而增强模型在实际应用中的安全性。