arXiv ID:
2602.16639
arXiv 提交日期: 2026-02-18
AREG:用于评估大语言模型说服与抵抗能力的对抗性资源提取博弈 / AREG: Adversarial Resource Extraction Game for Evaluating Persuasion and Resistance in Large Language Models
1️⃣ 一句话总结
这篇论文提出了一个名为AREG的对抗性谈判游戏基准,用于同时评估大语言模型的说服力和抵抗力,发现这两种能力关联性弱且模型普遍更擅长防守,表明仅评估说服力会忽略其行为中的不对称弱点。