arXiv ID:
2606.22841
arXiv 提交日期: 2026-06-22
IndicGuard:面向印度语言的 multilingual 安全护栏模型与数据集 / IndicGuard: A Multilingual Safety Guard Model and Dataset for Indic Languages
1️⃣ 一句话总结
本文提出了 IndicGuard,一个专为印度语言打造的多语言安全检测模型,通过构建覆盖十种主要印度语言的文化敏感数据集,有效提升了大型语言模型在本地化有害内容、敏感政治话题和对抗性攻击上的防御能力,并在低资源语言上也表现出良好的泛化性能。