arXiv ID:
2605.25420
arXiv 提交日期: 2026-05-25
索马里语基准评估:测量开源大语言模型在英-索翻译中的安全拒绝差距 / SomaliBench Eval: Measuring English-to-Somali Refusal Gaps in Open-Weight Language Models
1️⃣ 一句话总结
本文通过构建一个由母语者验证的英-索双语有害意图提示基准(100条),测试了四个开源大语言模型,发现它们在处理索马里语查询时显著更少拒绝有害指令,暴露出语言安全保护上的严重不平等;尤其值得注意的是,大多数模型面对索马里语有害请求时并非流畅地执行,而是输出空白、乱码或无关内容,形成一种“无声的漏洞”。