arXiv ID:
2602.07954
arXiv 提交日期: 2026-02-08
Bielik Guard:用于大语言模型内容审核的高效波兰语安全分类器 / Bielik Guard: Efficient Polish Language Safety Classifiers for LLM Content Moderation
1️⃣ 一句话总结
这篇论文提出了一个名为Bielik Guard的高效波兰语内容安全分类器系列,包含一大一小两个模型,它们能准确识别有害内容并优先提供恰当回应而非简单屏蔽,尤其在小模型上实现了高精度和低误报率。