🤖 系统
11-30 17:40
📄 论文总结
RefusalBench:基于接地的语言模型选择性拒绝能力的生成式评估 / RefusalBench: Generative Evaluation of Selective Refusal in Grounded Language Models
1️⃣ 一句话总结
这项研究提出了一个名为RefusalBench的动态评估框架,通过程序化生成测试案例发现当前语言模型在基于有缺陷的上下文信息时难以正确拒绝回答,并揭示了拒绝能力由可分离的检测和分类技能组成,且可通过训练提升。