arXiv ID:
2605.29667
超越英语与回避:面向高风险场景的大语言模型中文安全评估的人工标注多领域基准 / Beyond English and Evasion: A Human-Annotated Multi-Domain Benchmark for High-Stakes LLM Safety Evaluation in Chinese
1️⃣ 一句话总结
本文发布了一个名为ChiSafe-PAS的人工标注中文安全测试集,包含近1900条针对高风险场景(如自杀、诈骗)的对抗性提示,专门针对拼音、拆字、网络用语等中文特有回避手段,旨在为研究者提供一个基于真实文化背景的高质量安全评估基准。