🤖 系统
10-27 20:54
📄 论文总结
基于表示对齐的灾难性遗忘缓解框架 / RECALL: REpresentation-aligned Catastrophic-forgetting ALLeviation Framework
1️⃣ 一句话总结
RECALL框架通过分析大语言模型的内部表示作为知识代理,实现无需历史数据的持续学习,有效缓解灾难性遗忘问题。
2️⃣ 论文创新点
1. 表示感知的模型合并
- 创新点:基于中间表示相似性计算模型间相似度,通过自适应层次参数融合对齐知识
- 区别/改进:克服传统方法对任务标签或性能权衡的依赖,避免对原始数据和任务边界的依赖
- 意义:实现多领域知识无缝融合和强抗遗忘能力
2. 数据无关的持续学习
- 创新点:无需访问历史训练数据,仅通过模型内部表示进行知识保留
- 区别/改进:解决数据存储和隐私限制问题
- 意义:为LLM演进提供可扩展的解决方案
3. 分层模型融合策略
- 创新点:基于数据表示相似度计算每层独立权重,通过分层线性插值合并模型参数
- 区别/改进:改进了传统参数平均方法,通过表示相似性计算自适应权重,实现更精细的分层融合
- 意义:增强多领域能力,抵抗灾难性遗忘
3️⃣ 主要结果与价值
结果亮点
- 在单模型和多模型合并场景中均优于所有基线方法,在平均性能和未见任务泛化能力上表现最佳
- 在顺序微调场景中展示了持续学习中的有效性,相比基线方法在平均性能上有显著提升(+6.28%和+7.86%)
- 相比直接微调、参数平均、DARE、LM-Cocktail、Task Vector和EWC等基线方法,在知识保存和泛化方面表现出鲁棒性
实际价值
- 特别适合动态学习环境部署,在保持学习进度的同时提供对遗忘的弹性
- 无需访问训练数据,解决了数据可用性和优化灵活性问题
- 增强了模型在多领域和多任务上的能力,实现知识融合
4️⃣ 术语表
- RECALL:基于表示对齐的灾难性遗忘缓解框架,通过层次模型合并实现持续学习
- 灾难性遗忘:模型在学习新任务过程中覆盖先前知识的现象
- 表示感知模型合并:基于中间表示相似性指导参数融合的模型合并方法
- RBF核相似度:径向基函数核相似度,用于衡量不同模型隐藏状态之间的相似性
- 典型数据集:通过K-means聚类选择的代表性样本集合
- LoRA:低秩适应,用于微调管道的技术
- 灾难性干扰:神经网络在学习新任务时对旧任务知识的破坏性遗忘
- MedMCQA:医学领域大规模多学科多选题数据集,用于医学问答任务