arXiv ID:
2604.26506
arXiv 提交日期: 2026-04-29
安全评审:保护基于大语言模型的同行评审系统免受对抗性隐藏提示攻击 / SafeReview: Defending LLM-based Review Systems Against Adversarial Hidden Prompts
1️⃣ 一句话总结
本文提出了一种由生成器和防御器组成的对抗训练框架,通过动态对抗博弈提高大语言模型评审系统抵御恶意嵌入攻击的能力,从而保障学术评审的公正性。