← 返回列表

🤖 系统

📄 Abstract - AthenaBench: A Dynamic Benchmarking Framework for Large Language Models in Cyber Threat Intelligence

⏳ 正在获取摘要...

顶级标签: llm systems

📄 论文总结

AthenaBench：网络威胁情报领域大语言模型动态基准测试框架 / AthenaBench: A Dynamic Benchmarking Framework for Large Language Models in Cyber Threat Intelligence

1️⃣ 一句话总结

AthenaBench是一个专门针对网络威胁情报领域设计的动态基准测试套件，通过改进数据集构建流程、去重机制和评估指标，并新增风险缓解策略任务，系统评估了12个大语言模型在复杂网络安全任务中的表现。

2️⃣ 论文创新点

1. 动态基准测试框架

创新点：AthenaBench是一个专门针对CTI领域设计的动态基准测试套件，集成了MITRE ATT&CK框架和NVD漏洞数据库等实时数据源
区别/改进：改进了数据集创建流程、增加了重复数据删除、细化了评估指标，确保基准样本能随威胁环境动态演变
意义：解决了现有基准测试的静态知识问题，能够更好地评估LLM在快速演变的网络安全领域的推理能力

2. 风险缓解策略任务

创新点：在基准测试中新增了风险缓解策略评估任务，扩展了CTIBench的任务范围
区别/改进：增加了新的评估维度，使评估更加全面
意义：更全面地评估LLM在CTI工作流程中的实际应用能力

3. 动态数据构建机制

创新点：利用实时CTI数据源和API持续生成基准样本，减少人工监督
区别/改进：使任务保持最新状态，确保模型评估能跟上新兴漏洞、技术和威胁行为者
意义：确保模型评估与真实世界发展同步

4. 威胁报告匿名化处理

创新点：使用GPT-5将原始威胁情报报告重写为匿名行为档案，替换行为者名称
区别/改进：结合newspaper3k和BeautifulSoup的混合解析管道
意义：模拟真实CTI分析场景，防止模型通过显式名称进行归因

3️⃣ 主要结果与价值

结果亮点

评估了12个LLM，包括GPT-5、Gemini-2.5 Pro等专有模型和LLaMA、Qwen等开源模型
专有模型整体表现更好，但在威胁归因和风险缓解等推理密集型任务上仍有不足
GPT-5在大多数任务上表现最佳，综合性能达66.1%，特别是在结合网络搜索后性能进一步提升
结构化任务表现较好，而开放推理任务暴露了当前LLMs的局限性

实际价值

为网络安全研究和自动化中LLMs的系统评估和持续进步提供基础
证明了外部知识检索对复杂推理任务的有效性，特别是在需要最新信息的网络安全场景中
创建了紧凑的公开版本AthenaBench-Mini，支持持续研究和快速模型评估

4️⃣ 术语表

AthenaBench：用于评估大语言模型在网络威胁情报领域性能的动态基准测试套件
CTI：网络威胁情报，涉及收集、分析和传播关于当前和新兴网络威胁的信息，以帮助组织预测和缓解攻击
Risk Mitigation Strategies (RMS)：评估模型提出有效防御措施能力的新任务
CKT：CTI知识测试，评估LLM在网络威胁情报基础知识方面的能力
RCM：根本原因映射，将漏洞描述映射到正确CWE类别的任务
CVSS v3.1：通用漏洞评分系统版本3.1，用于评估漏洞严重程度的标准化框架
MITRE ATT&CK：网络安全知识库，描述和分类对手战术、技术和程序
MAD：平均绝对偏差，用于VSP任务中预测CVSS分数与真实值的差异度量
NVD：国家漏洞数据库，提供网络安全漏洞信息
CVSS：通用漏洞评分系统，用于评估漏洞严重程度

📄 打开原文 PDF