arXiv ID:
2604.19274
arXiv 提交日期: 2026-04-21
HarDBench:面向草稿协作越狱攻击的基准测试——用于安全的人机协同写作 / HarDBench: A Benchmark for Draft-Based Co-Authoring Jailbreak Attacks for Safe Human-LLM Collaborative Writing
1️⃣ 一句话总结
本文针对用户利用大语言模型协作写作时,通过提供不完整草稿诱导模型生成危险内容的越狱攻击,提出了一个名为HarDBench的系统性基准测试,并开发了一种偏好优化方法,在保障安全性的同时维持模型正常的写作辅助能力。