← 返回列表

🤖 系统

📄 Abstract - Delimiter Brittleness in Large Language Models: The Impact of Separator Choices on Model Performance

⏳ 正在获取摘要...

顶级标签: llm

📄 论文总结

大语言模型提示敏感性研究：分隔符选择对模型性能的影响 / Delimiter Brittleness in Large Language Models: The Impact of Separator Choices on Model Performance

1️⃣ 一句话总结

本研究揭示了大语言模型对提示中微小分隔符选择的显著敏感性，单字符变化可导致MMLU性能差异达18.3%-29.4%，相当于三年模型进展，并提出了改进模型鲁棒性的实用方法。

2️⃣ 论文创新点

1. 分隔符敏感性系统研究

创新点：首次系统性评估30种非字母数字ASCII字符作为示例分隔符对指令调优模型性能的影响
区别/改进：揭示了固定提示模板评估的局限性，发现微小分隔符变化能造成基准测试上的巨大性能差异
意义：挑战现有LLM评估方法，表明提示微小变化可大幅改变模型表现和排名

2. 分隔符鲁棒性提升方法

创新点：通过在提示中明确指定示例分隔符来提升模型稳定性
区别/改进：Qwen2.5-7B-instruct在MMLU上获得+14.2%提升，推荐使用'\n'和'!'作为最佳分隔符
意义：提供实用解决方案改善模型对分隔符选择的稳定性

3. 注意力机制分析

创新点：通过字典查找任务分析分隔符如何影响LLM的注意力分配
区别/改进：使用'\n'分隔符相比空格使目标关键词注意力得分提升25%
意义：揭示了分隔符通过引导模型关注相关输入部分来提升性能的机制

3️⃣ 主要结果与价值

结果亮点

所有指令调优模型对分隔符选择都表现出脆弱性，性能存在显著差异
GPT-4o在不同分隔符下的性能差异达45.63%，是开源模型的近3倍
模型规模扩大(8B到70B)提升整体性能但无法解决分隔符脆弱性问题
分隔符敏感性广泛存在于STEM、人文和社会科学等多个领域

实际价值

为模型评估提供了更可靠和通用的协议，模拟真实世界使用场景
提出的分隔符明确指定方法可显著提升模型在推理任务中的稳定性
对提示工程和基准测试设计具有重要指导意义，确保结果可比性
为理解上下文学习工作原理提供了新视角

4️⃣ 术语表

分隔符脆弱性：大语言模型对提示中分隔符字符选择的高度敏感性，表现为性能的显著波动
MMLU：大规模多任务语言理解基准测试，用于评估语言模型在多学科任务上的性能
链式思维提示：一种提示技术，通过在提示中插入引导性短语来激活模型的推理能力
指令调优：通过在指令数据集上微调来增强语言模型的技术，使其能生成更合理、更类人的输出
自洽性提示：通过采样多个不同思维链并对其最终答案进行多数投票聚合，减少方差并稳定输出

📄 打开原文 PDF