← 返回列表

🤖 系统

📄 Abstract - Research on Pre-Execution Safety Guard System for AI Assistants

⏳ 正在获取摘要...

顶级标签: agents llm

📄 论文总结

AI助手预执行安全防护系统研究 / Research on Pre-Execution Safety Guard System for AI Assistants

1️⃣ 一句话总结

该论文提出了一个完整的预执行安全防护框架，包括AuraGen数据生成引擎、Safiron基础护栏模型和Pre-Exec Bench评估基准，解决了LLM在规划阶段面临的数据、模型和评估三大挑战。

2️⃣ 论文创新点

1. AuraGen可控数据生成引擎

创新点：通过三阶段流程合成风险智能体轨迹的可控数据引擎，包括合成良性轨迹、注入分类风险和自动质量过滤
区别/改进：解决了预执行安全训练数据稀缺问题，生成大规模、高质量、可控的训练语料
意义：为安全模型训练提供可靠数据基础，使防护系统更灵活、适应性强，能够快速纳入新场景

2. Safiron基础护栏模型框架

创新点：结合统一适配器和紧凑守护模型的基础护栏，适配器标准化输入格式，Safiron标记风险案例、分配风险类型并生成解释
区别/改进：实现精确、可解释的执行前拦截，两阶段训练优化检测和分类准确率
意义：提供强大且可泛化的守护模型，能够在多样化威胁和设置中实现稳健迁移

3. Pre-Exec Bench评估基准

创新点：覆盖多样化工具和分支轨迹的现实基准，通过工具精炼、轨迹生成和人工验证构建
区别/改进：测量检测、细粒度分类、解释和跨规划器泛化能力
意义：填补了规划阶段评估空白，提供了系统化、可泛化的评估框架

4. 风险轨迹生成策略

创新点：提出四种风险轨迹注入策略：单点替换、序列替换、新分支转移和桥接分支转移
区别/改进：相比单一攻击模式，提供更全面的风险测试覆盖
意义：能够有效测试护栏系统的上下文推理、目标对齐和整体路径审计能力

3️⃣ 主要结果与价值

结果亮点

Safiron模型在分类准确率、风险分类准确率和解释正确性等指标上显著优于GPT-4o、Claude-3.7-Sonnet等主流模型
GRPO版本的Safiron表现最稳定全面，相比SFT-only和SFT+PPO在风险分类和解释正确性上表现最佳
1:4到1:6的有害样本比例范围效果最佳，相比3:1比例在有害检测和解释正确性上提升0.15-0.20和0.10-0.15
适配器展现出对未见风格的鲁棒泛化能力，即使移除特定风格数据后仍能保持强泛化性能

实际价值

为通用智能体系统提供了最平衡的防护栏解决方案，解决了专用模型过度标记或夸大安全性的问题
通过自动数据生成和质量保证机制，显著降低了安全防护系统的开发和维护成本
提供了可解释的预执行安全关键能力，平衡了检测与细粒度分类和解释质量
填补了现有基准在规划阶段安全评估的空白，为后续研究提供了标准化测试环境

4️⃣ 术语表

AuraGen：合成风险轨迹的数据引擎，通过三阶段流程生成大规模、多样化和可控的轨迹以训练防护模型
Safiron：守护者模型，通过SFT和RL两阶段训练，用于检测代理系统中的风险，输出二元决策、风险类别和解释
Pre-Exec Bench：专注于预执行规划阶段的数据集，基于AgentSafetyBench构建，用于测试智能体系统的安全性
GRPO：Group Relative Policy Optimization，使用组相对基准的策略梯度方法，通过组内归一化优势计算和策略裁剪实现稳定优化
风险注入：将良性场景转化为风险轨迹的过程，通过注入模型和特定策略实现

📄 打开原文 PDF