← 返回列表

🤖 系统

📄 Abstract - Evaluating the Robustness of Large Language Models on Paraphrased Benchmark Questions

⏳ 正在获取摘要...

顶级标签: llm

📄 论文总结

大型语言模型基准测试鲁棒性评估

Evaluating the Robustness of Large Language Models on Paraphrased Benchmark Questions

1️⃣ 一句话总结

本研究通过系统生成基准问题的多种转述版本，评估大型语言模型对语言变异的鲁棒性，发现模型在转述问题上的性能显著下降，揭示了传统基准测试可能高估模型真实能力的问题。

2️⃣ 论文创新点

1. 系统性转述基准问题

创新点是什么：对六个常见基准的所有问题生成多种转述，测试模型对语言变化的鲁棒性
与已有方法的区别/改进：通过控制语言和句法变化，直接测试模型泛化能力
为什么有意义：揭示了基准评估的局限性，强调需要更鲁棒的评估方法

2. 自动化转述生成与验证

创新点是什么：使用GPT-4o mini自动为基准问题生成5个保持原意的不同措辞版本
与已有方法的区别/改进：替代了不可行的手动转述，并通过后续验证确保语义完整性
为什么有意义：实现了大规模、可控地引入语言多样性，以孤立地测试模型对措辞变化的鲁棒性

3. 转述一致性评估框架

创新点是什么：通过生成多个语义相同的转述问题，系统评估模型答案的一致性
与已有方法的区别/改进：改进了传统基准测试只使用单一问题表述的局限性
为什么有意义：揭示了模型对表面表述变化的敏感性，对基准测试的可靠性提出重要质疑

3️⃣ 主要结果与价值

实验结果亮点

大多数模型在不同转述版本中会给出不同答案，仅70%-85%的问题能得到一致回答
模型规模与一致性-准确性关系呈现双模式：小模型(0-15B参数)呈负相关，大模型(16-150B参数)呈正相关
Chain-of-Thought提示对模型效果提升有限(平均低于3%)，且导致响应一致性下降约7%

实际应用价值

为评估LLM真实语义理解能力提供新维度，揭示基准评估的潜在缺陷
推动更全面、真实的模型能力评估方法，避免高估模型在真实场景中的泛化能力
为模型开发和优化提供重要参考，特别是在提高语言鲁棒性方面

4️⃣ 术语表

LLMs：Large Language Models，大型语言模型，用于自然语言处理任务
MMLU：Massive Multitask Language Understanding，大规模多任务语言理解基准，用于评估模型的多任务性能
Benchmark Agreement Testing (BAT)：基准一致性测试，研究不同基准测试是否产生一致的模型排名
RLHF：Reinforcement Learning from Human Feedback，一种通过人类反馈进行强化学习的方法，用于指令微调以提升模型遵循指令和泛化能力
Chain-of-Thought (CoT)：一种提示技术，模型生成多个推理路径后通过多数投票确定答案
Answer Consistency：模型对语义相同的转述问题给出相同答案的程度，用作鲁棒性指标
paraphrases：问题转述，通过不同表达方式表达相同语义的问题变体
semantic fragility：语义脆弱性，指LLM对问题表述变化敏感而导致回答不一致的特性
Pearson’s ρ：用于衡量准确性与一致性之间统计相关性的相关系数

📄 打开原文 PDF