arXiv ID:
2601.03699
arXiv 提交日期: 2026-01-07
RedBench:一个用于大型语言模型全面红队测试的通用数据集 / RedBench: A Universal Dataset for Comprehensive Red Teaming of Large Language Models
1️⃣ 一句话总结
这篇论文提出了一个名为RedBench的通用数据集,它整合了多个现有基准,通过标准化的风险分类和领域覆盖,来系统性地评估和比较大型语言模型在面对恶意或对抗性提示时的安全漏洞,以促进更安全可靠的模型开发。