🤖 系统
09-07 15:41
📄 论文总结
Delta Activations:通过内部激活差异表示微调语言模型
Delta Activations: Representing Fine-tuned Language Models through Internal Activation Differences
1️⃣ 一句话总结
本研究提出了Delta Activations方法,通过测量微调模型与基础模型在内部激活状态上的差异来生成模型向量表示,该方法无需依赖训练数据,能有效按领域和任务对模型进行聚类,并具有跨微调设置的鲁棒性和数据集混合时的可加性。
2️⃣ 论文创新点
1. Delta Activations表示方法
- 创新点是什么:通过计算微调模型与基础模型在相同输入下的隐藏状态差异来生成模型向量表示
- 与已有方法的区别/改进:无需依赖模型元数据或训练数据,仅从模型本身导出表示,计算效率高且能区分相同训练数据训练的模型
- 为什么有意义:为微调模型的发现、比较和分类提供了有效的嵌入空间
2. 嵌入空间的可加性
- 创新点是什么:Delta Activations形成的嵌入空间具有向量加法性质
- 与已有方法的区别/改进:当微调数据集混合时,对应的嵌入呈现加法关系:v(D1∪D2) ≈ v(D1) + v(D2)
- 为什么有意义:支持模型行为的组合和分解分析,为模型组合提供理论依据
3. Delta-X框架扩展
- 创新点是什么:将Delta框架推广到其他表示选择,如激活值、logits或意义表示
- 与已有方法的区别/改进:支持Delta Logits、Delta Weighted Activations和Delta Meaning等多种变体
- 为什么有意义:提供了通用且可扩展的技术来理解和组织微调语言模型,实现不同基础架构模型在共享空间中的嵌入
4. 通用探测数据集设计
- 创新点是什么:使用Alpaca模板和GPT-4o释义生成的通用数据集
- 与已有方法的区别/改进:避免了特定任务或领域的偏差,能激活模型的核心计算路径
- 为什么有意义:为标准化的模型激活偏移测量提供了通用基准
3️⃣ 主要结果与价值
实验结果亮点
- 在所有骨干模型(LLaMA-3.1-8B、Gemma-2-9B、Qwen-2.5-7B)上均取得最佳聚类效果,平均轮廓系数0.614,显著优于参数空间基线和输出句子嵌入方法
- t-SNE可视化进一步证实了其聚类效果,即使面对多样化输出结构和偏好优化设置仍能保持稳定的聚类性能
- 在偏好优化(如DPO)训练的模型上实现0.93的高轮廓分数,扩展了应用范围
- few-shot任务嵌入仅需20个示例即可准确定位对应领域的完整模型聚类,Gemma达到100%检索率
实际应用价值
- 支持跨基础模型聚类,相同架构不同检查点实现轮廓系数0.39,不同架构使用Delta Meaning方法实现0.32
- 在BBH基准测试中,通过Delta Activations相似度指导模型选择,准确率从34.3%提升至36.3%
- 为模型选择、合并等应用提供数据驱动的决策依据,替代随机选择机制
- 激活提取位置优化:2/3深度层的加权平均所有token嵌入效果最佳,但最后层最后token嵌入效果相近且更简单
4️⃣ 术语表
- Delta Activations:通过测量微调模型与基础模型在相同输入下的内部激活差异来表示模型的方法
- LLMs:Large Language Models,大型语言模型
- silhouette score:轮廓系数,用于评估聚类质量的指标,范围从-1(错误聚类)到+1(良好聚类),基于样本与同簇和最近邻簇的平均距离计算
- D_probe:通用探测数据集,由Alpaca模板和GPT-4o释义生成,用于聚合Delta Activations
- Delta Meaning:架构无关的替代方法,用于不同架构模型间的跨基础模型聚类