arXiv ID:
2606.09178
arXiv 提交日期: 2026-06-08
面向东亚及东南亚语境的文化自适应红队测试:一种方法论与比较分析 / Culturally-Adapted Red-Teaming Across East and Southeast Asian Contexts: A Methodological and Comparative Analysis
1️⃣ 一句话总结
该研究发现,当前大语言模型的多语言安全评估主要依赖对英语测试集的直接翻译,而这种做法忽视了本地文化背景,导致严重低估模型在真实场景中的安全风险;通过为韩语、日语、泰语和高棉语分别构建文化自适应的攻击测试集,攻击成功率平均提升9.3个百分点,表明只有针对具体语言文化调整测试内容,才能有效评估模型在多语言环境中的安全性。