🤖 系统
10-14 16:50
📄 论文总结
大型多模态模型持续学习中的选择性参数更新方法 / Selective Parameter Updating for Continual Learning in Large Multimodal Models
1️⃣ 一句话总结
本研究发现在大型多模态模型持续学习过程中,性能下降主要是由输出标记分布偏移引起而非知识遗忘,并提出仅微调自注意力投影层或MLP门控与上投影层的选择性参数更新方法,在保持模型原有能力的同时有效学习新技能。
2️⃣ 论文创新点
1. 遗忘恢复现象
- 创新点:观察到在微调后,保留任务的性能下降会在后续阶段部分恢复,挑战了传统灾难性遗忘的观点
- 区别/改进:通过顺序微调多个任务,模型能在后续学习中恢复之前遗忘的能力
- 意义:表明LMMs具有一定的知识恢复能力,为持续学习提供了新视角
2. 输出标记分布偏移分析
- 创新点:提出遗忘主要由任务分布变化导致的输出标记分布偏移引起,而非真正的知识丢失
- 区别/改进:通过计数偏差异常值量化跟踪遗忘现象,指导后续调整方法设计
- 意义:为理解和缓解持续学习中的遗忘问题提供了新的理论视角和解决方案
3. 选择性参数更新策略
- 创新点:提出了仅更新自注意力投影层或仅更新MLP的门控与上投影层同时冻结下投影层的调整方法
- 区别/改进:这些方法在微调时仅更新少量参数,减少了模型输出的分布偏移
- 意义:实现了在获得强大目标性能的同时,基本保留保留性能,提供了高效更新LMMs的实用方案
3️⃣ 主要结果与价值
结果亮点
- 在LLaVA-OneVision、LLaVA-NeXT和Qwen2.5-VL三个模型系列上验证了方法的有效性
- SA投影方法在保持稳定性方面表现最佳,而MLP(Gate&Up)在目标学习与有限遗忘间达到最优平衡
- 相比专门的正向迁移方法,选择性优化SA投影或MLP(Gate&Up)在无需额外模块情况下实现学习-稳定性平衡更简单有效
实际价值
- 提供了一种无需额外模块、回放或权重混合的有效持续学习方案
- 通过限制分布偏移显著减轻了灾难性遗忘问题
- 为多模态场景下的持续学习提供了通用指导
4️⃣ 术语表
- LMMs:大型多模态模型,能够基于图像和自然语言指令生成自然语言答案
- SA Proj.:自注意力投影层,是LLM中的关键组件之一,在本文中被发现是微调时减少遗忘的有效更新目标
- MLP (Gate&Up):仅优化MLP层中的门控和上投影权重,在目标学习与有限遗忘间达到最优平衡的参数更新策略
- NTB:数字标记偏差异常值,用于衡量模型在非计数任务中输出数字标记的倾向性
- LoRA:低秩适应,一种参数高效的微调方法,能减少模型在学习新任务时的遗忘
- FFN/MLP:前馈网络/多层感知机,在Transformer中作为键值记忆,存储'说什么'的知识,是输出分布变化的主要驱动因素
- 知识蒸馏:一种模型压缩技术,通过训练一个学生模型来模仿教师模型的输出,以保留知识并减少遗忘
- 残差流:Transformer模型中通过残差连接传递信息的路径,允许梯度直接流动,促进深层网络训练