arXiv ID:
2512.05339
arXiv 提交日期: 2025-12-05
具有鲁棒护栏的、可适应分类体系的大语言模型审核模型 / Taxonomy-Adaptive Moderation Model with Robust Guardrails for Large Language Models
1️⃣ 一句话总结
这篇论文提出了一个名为Roblox Guard 1.0的新型大语言模型审核系统,它通过指令微调,能够理解和阻止各种新的、未见过的有害内容,从而为大语言模型的应用提供更全面、更灵活的安全防护。