arXiv ID:
2602.21496
arXiv 提交日期: 2026-02-25
超越拒绝:探究语义敏感信息代理式自我修正的极限 / Beyond Refusal: Probing the Limits of Agentic Self-Correction for Semantic Sensitive Information
1️⃣ 一句话总结
这篇论文提出了一个名为SemSIEdit的新方法,让大语言模型在回答问题时,能像一个‘编辑’一样主动识别并安全地改写可能泄露个人隐私或造成声誉损害的敏感内容,而不是简单地拒绝回答,从而在有效保护隐私的同时,最大程度地保留回答的有用性。