← 返回列表

菜单

🤖 系统
📄 Abstract
正在获取摘要...
顶级标签: llm systems
详细标签: jailbreak detection malicious content filtering hybrid framework attack strategies dataset cleaning 或 搜索:

📄 论文总结


1️⃣ 一句话总结

这篇论文提出了MDH混合框架,结合LLM自动标注与最小人工监督,高效检测恶意内容并清理数据集,同时设计了两种新型越狱攻击方法(D-Attack和DH-CoT),显著提升攻击成功率,为LLM安全防御与攻击评估提供了系统化解决方案。


2️⃣ 论文创新点

1. MDH混合检测框架

2. D-Attack越狱攻击策略

3. DH-CoT越狱攻击策略

4. RTA系列数据集构建


3️⃣ 主要结果与价值

实验结果亮点

实际应用价值


4️⃣ 术语表


📄 打开原文 PDF