📄 论文总结
AthenaBench:网络威胁情报领域大语言模型动态基准测试框架 / AthenaBench: A Dynamic Benchmarking Framework for Large Language Models in Cyber Threat Intelligence
1️⃣ 一句话总结
AthenaBench是一个专门针对网络威胁情报领域设计的动态基准测试套件,通过改进数据集构建流程、去重机制和评估指标,并新增风险缓解策略任务,系统评估了12个大语言模型在复杂网络安全任务中的表现。
2️⃣ 论文创新点
1. 动态基准测试框架
- 创新点:AthenaBench是一个专门针对CTI领域设计的动态基准测试套件,集成了MITRE ATT&CK框架和NVD漏洞数据库等实时数据源
- 区别/改进:改进了数据集创建流程、增加了重复数据删除、细化了评估指标,确保基准样本能随威胁环境动态演变
- 意义:解决了现有基准测试的静态知识问题,能够更好地评估LLM在快速演变的网络安全领域的推理能力
2. 风险缓解策略任务
- 创新点:在基准测试中新增了风险缓解策略评估任务,扩展了CTIBench的任务范围
- 区别/改进:增加了新的评估维度,使评估更加全面
- 意义:更全面地评估LLM在CTI工作流程中的实际应用能力
3. 动态数据构建机制
- 创新点:利用实时CTI数据源和API持续生成基准样本,减少人工监督
- 区别/改进:使任务保持最新状态,确保模型评估能跟上新兴漏洞、技术和威胁行为者
- 意义:确保模型评估与真实世界发展同步
4. 威胁报告匿名化处理
- 创新点:使用GPT-5将原始威胁情报报告重写为匿名行为档案,替换行为者名称
- 区别/改进:结合newspaper3k和BeautifulSoup的混合解析管道
- 意义:模拟真实CTI分析场景,防止模型通过显式名称进行归因
3️⃣ 主要结果与价值
结果亮点
- 评估了12个LLM,包括GPT-5、Gemini-2.5 Pro等专有模型和LLaMA、Qwen等开源模型
- 专有模型整体表现更好,但在威胁归因和风险缓解等推理密集型任务上仍有不足
- GPT-5在大多数任务上表现最佳,综合性能达66.1%,特别是在结合网络搜索后性能进一步提升
- 结构化任务表现较好,而开放推理任务暴露了当前LLMs的局限性
实际价值
- 为网络安全研究和自动化中LLMs的系统评估和持续进步提供基础
- 证明了外部知识检索对复杂推理任务的有效性,特别是在需要最新信息的网络安全场景中
- 创建了紧凑的公开版本AthenaBench-Mini,支持持续研究和快速模型评估
4️⃣ 术语表
- AthenaBench:用于评估大语言模型在网络威胁情报领域性能的动态基准测试套件
- CTI:网络威胁情报,涉及收集、分析和传播关于当前和新兴网络威胁的信息,以帮助组织预测和缓解攻击
- Risk Mitigation Strategies (RMS):评估模型提出有效防御措施能力的新任务
- CKT:CTI知识测试,评估LLM在网络威胁情报基础知识方面的能力
- RCM:根本原因映射,将漏洞描述映射到正确CWE类别的任务
- CVSS v3.1:通用漏洞评分系统版本3.1,用于评估漏洞严重程度的标准化框架
- MITRE ATT&CK:网络安全知识库,描述和分类对手战术、技术和程序
- MAD:平均绝对偏差,用于VSP任务中预测CVSS分数与真实值的差异度量
- NVD:国家漏洞数据库,提供网络安全漏洞信息
- CVSS:通用漏洞评分系统,用于评估漏洞严重程度