arXiv最新AI论文速览速学

📄

提交新论文

AI论文阅读

搜索范围：

所有标签

📄

2510.08564

🤖 系统

10-14 16:50

continual learning parameter efficient fine-tuning catastrophic forgetting multimodal models attention projection

📄 论文总结

大型多模态模型持续学习中的选择性参数更新方法 / Selective Parameter Updating for Continual Learning in Large Multimodal Models

1️⃣ 一句话总结

本研究发现在大型多模态模型持续学习过程中，性能下降主要是由输出标记分布偏移引起而非知识遗忘，并提出仅微调自注意力投影层或MLP门控与上投影层的选择性参数更新方法，在保持模型原有能力的同时有效学习新技能。

2️⃣ 论文创新点

1. 遗忘恢复现象

创新点：观察到在微调后，保留任务的性能下降会在后续阶段部分恢复，挑战了传统灾难性遗忘的观点
区别/改进：通过顺序微调多个任务，模型能在后续学习中恢复之前遗忘的能力
意义：表明LMMs具有一定的知识恢复能力，为持续学习提供了新视角

2. 输出标记分布偏移分析

创新点：提出遗忘主要由任务分布变化导致的输出标记分布偏移引起，而非真正的知识丢失
区别/改进：通过计数偏差异常值量化跟踪遗忘现象，指导后续调整方法设计
意义：为理解和缓解持续学习中的遗忘问题提供了新的理论视角和解决方案

3. 选择性参数更新策略

创新点：提出了仅更新自注意力投影层或仅更新MLP的门控与上投影层同时冻结下投影层的调整方法
区别/改进：这些方法在微调时仅更新少量参数，减少了模型输出的分布偏移
意义：实现了在获得强大目标性能的同时，基本保留保留性能，提供了高效更新LMMs的实用方案

3️⃣ 主要结果与价值

结果亮点

在LLaVA-OneVision、LLaVA-NeXT和Qwen2.5-VL三个模型系列上验证了方法的有效性
SA投影方法在保持稳定性方面表现最佳，而MLP(Gate&Up)在目标学习与有限遗忘间达到最优平衡
相比专门的正向迁移方法，选择性优化SA投影或MLP(Gate&Up)在无需额外模块情况下实现学习-稳定性平衡更简单有效

实际价值

提供了一种无需额外模块、回放或权重混合的有效持续学习方案
通过限制分布偏移显著减轻了灾难性遗忘问题
为多模态场景下的持续学习提供了通用指导

4️⃣ 术语表

LMMs：大型多模态模型，能够基于图像和自然语言指令生成自然语言答案
SA Proj.：自注意力投影层，是LLM中的关键组件之一，在本文中被发现是微调时减少遗忘的有效更新目标
MLP (Gate&Up)：仅优化MLP层中的门控和上投影权重，在目标学习与有限遗忘间达到最优平衡的参数更新策略
NTB：数字标记偏差异常值，用于衡量模型在非计数任务中输出数字标记的倾向性
LoRA：低秩适应，一种参数高效的微调方法，能减少模型在学习新任务时的遗忘
FFN/MLP：前馈网络/多层感知机，在Transformer中作为键值记忆，存储'说什么'的知识，是输出分布变化的主要驱动因素
知识蒸馏：一种模型压缩技术，通过训练一个学生模型来模仿教师模型的输出，以保留知识并减少遗忘
残差流：Transformer模型中通过残差连接传递信息的路径，允许梯度直接流动，促进深层网络训练

✓ 标记为已读 ☆ 收藏 📌 待读展开

📄 打开原文 PDF

📄

2510.09189

🤖 系统

10-14 16:36

machine translation parameter efficient fine-tuning low-resource languages instruction tuning layer selective optimization

📄 论文总结

Qwen3-XPlus：基于指令模型和层选择性优化的高效翻译增强方法 / Qwen3-XPlus: Efficient Translation Enhancement via Instruction Models and Layer-Selective Tuning

1️⃣ 一句话总结

Qwen3-XPlus提出了一种从指令模型出发、仅使用少量并行数据进行层选择性优化的翻译增强方法，在显著提升低资源语言翻译性能的同时保持了模型的通用推理能力，且训练数据需求远低于现有方法。

2️⃣ 论文创新点

1. 基于指令模型的翻译增强方法

创新点：从指令模型而非基础模型开始训练，仅使用并行数据对特定层进行选择性优化
区别/改进：避免了从基础模型训练导致的灾难性遗忘问题，减少了对大规模高质量数据的依赖
意义：在提升翻译性能的同时保持了推理能力，为多语言增强提供了更可行的方案

2. 层选择性优化技术

创新点：采用两阶段优化过程，分别训练靠近嵌入层的4层和较远的15层，基于梯度敏感度分析指导层选择
区别/改进：有效平衡翻译质量和推理能力，无需额外参数
意义：在多个数据集和模型骨架上均取得显著改进

3. 两阶段优化策略

创新点：先优化底层编码层，再优化顶层解码层，中间层参数冻结
区别/改进：相比单阶段优化带来额外性能提升，特别对低资源语言效果显著
意义：进一步优化了模型性能，在多个语言对上取得最佳结果

4. 高效数据利用

创新点：仅使用0.8B tokens数据实现竞争力的多语言和通用任务性能
区别/改进：训练数据需求远低于对比模型，降低训练成本
意义：证明了从指令模型出发的优势，为资源受限场景提供解决方案

3️⃣ 主要结果与价值

结果亮点

在FLORES-101测试集的翻译性能比较中，Qwen3-XPlus-14B在28个报告指标中的21个上表现最佳
在多语言任务评估中，Qwen3-XPlus在7个任务中的5个上优于Qwen3基础模型
在低资源语言翻译上取得显著提升（15+ spBLEU, 40+ xComet）
在17种语言训练集上训练，并在12种未见语言上测试，均优于Qwen3-8B，证明强大的跨语言泛化能力

实际价值

开源了Qwen3-XPlus-8B和Qwen3-XPlus-14B两个翻译增强模型
方法同样适用于Llama3.1-8B等其他模型骨架，显著提升多语言性能
在代码生成任务（OpenThoughts和WebSyn数据集）上同样优于全微调，避免性能下降
为多语言应用提供了平衡翻译质量和推理能力的解决方案

4️⃣ 术语表

Qwen3-XPlus：基于Qwen3指令模型构建的翻译增强模型，采用层选择性优化方法
层选择性优化：选择性训练模型特定层（如靠近嵌入层的4层和较远的15层）的两阶段优化方法，属于参数高效微调技术
PEFT：参数高效微调，包括加法律、选择性、重参数化和混合型四种主要类型
FLORES-101：用于机器翻译评估的多语言数据集
spBLEU：基于文本表面特征衡量翻译质量的指标
xComet：关注源句子与翻译之间语义相似度的评估指标
SimHash：一种用于数据去重的哈希算法，基于语言特定分词和源-目标长度匹配进行重复样本检测

✓ 标记为已读 ☆ 收藏 📌 待读展开

📄 打开原文 PDF

📄

2510.11696

🤖 系统

10-14 16:33

llm

quantization parameter efficient fine-tuning memory optimization exploration enhancement large language models

📄 论文总结

量化增强的强化学习框架 / QeRL: Quantization-Enhanced Reinforcement Learning Framework

1️⃣ 一句话总结

QeRL是一个结合NVFP4量化和LoRA技术的强化学习框架，通过量化噪声增强探索能力，在单张H100 80GB GPU上实现32B大语言模型的高效训练，性能超越16位LoRA和QLoRA。

2️⃣ 论文创新点

1. NVFP4量化与LoRA结合

创新点：将4位NVFP4量化技术与低秩适应(LoRA)结合，加速强化学习的rollout阶段并减少内存开销
区别/改进：相比传统强化学习方法，解决了rollout瓶颈问题，显著提升训练效率
意义：首次实现在单张H100 80GB GPU上训练32B大语言模型，为大规模LLM强化学习训练提供可行方案

2. 量化噪声增强探索

创新点：发现量化误差在强化学习中起到类似随机噪声的作用，增加策略采样熵，促进更广泛的探索
区别/改进：挑战了量化会降低训练效果的传统认知，量化模型在强化学习中表现更佳
意义：将量化从单纯效率工具转变为提升性能的手段，开辟量化新应用场景

3. 自适应量化噪声机制

创新点：引入自适应量化噪声(AQN)技术，通过动态调整量化噪声水平来平衡探索与利用
区别/改进：使用指数调度器动态调整量化噪声，进一步优化探索过程
意义：提供更精细的噪声控制，平衡探索与利用，提升训练稳定性

4. 噪声共享与集成策略

创新点：将噪声向量集成到LayerNorm参数中，实现量化噪声的动态控制，避免显式创建噪声向量的内存开销
区别/改进：通过数学等价性将加性噪声转换为乘性噪声，集成到归一化层参数中
意义：实现量化噪声的零参数开销控制，提高强化学习稳定性

3️⃣ 主要结果与价值

结果亮点

在GSM8K和MATH 500数学推理任务上性能优于16位LoRA和QLoRA，匹配全参数微调
实现1.2×-1.5×的训练加速，在长序列生成中优势更明显
14B模型在AMC 23数据集上达到57.5分，超过全参数训练的55.0分
仅需训练约1%的参数，GPU内存使用仅为普通LoRA的40%-50%

实际价值

大幅降低大语言模型强化学习训练的资源需求
使单卡训练32B大模型成为可能，降低部署门槛
特别适合长序列推理场景，在资源受限环境中实现高效训练
为量化技术在大模型训练中的应用开辟新方向

4️⃣ 术语表

QeRL：量化增强的强化学习框架，结合NVFP4量化和LoRA技术优化大语言模型强化学习训练
NVFP4：NVIDIA推出的4位浮点量化格式，使用FP8(E4M3)缩放因子和16元素参数块，相比NF4具有更好性能
AQN：自适应量化噪声，通过动态控制量化噪声来增强模型探索能力的技术
LoRA：低秩适应，一种参数高效微调技术，通过低秩矩阵分解减少训练参数
GRPO：基于GAE的策略优化算法，无需单独训练奖励模型
DAPO：用于训练Qwen2.5系列模型的强化学习算法
Marlin：支持大语言模型混合精度自回归并行推理的框架系统

✓ 标记为已读 ☆ 收藏 📌 待读展开

📄 打开原文 PDF

📚 arXiv最新AI论文速览速学

菜单

提交新论文

2510.08564

📄 论文总结

1️⃣ 一句话总结

2️⃣ 论文创新点

1. 遗忘恢复现象

2. 输出标记分布偏移分析

3. 选择性参数更新策略

3️⃣ 主要结果与价值

结果亮点

实际价值

4️⃣ 术语表

2510.09189

📄 论文总结

1️⃣ 一句话总结

2️⃣ 论文创新点

1. 基于指令模型的翻译增强方法

2. 层选择性优化技术

3. 两阶段优化策略

4. 高效数据利用

3️⃣ 主要结果与价值

结果亮点

实际价值

4️⃣ 术语表

2510.11696

📄 论文总结

1️⃣ 一句话总结

2️⃣ 论文创新点

1. NVFP4量化与LoRA结合

2. 量化噪声增强探索

3. 自适应量化噪声机制

4. 噪声共享与集成策略

3️⃣ 主要结果与价值

结果亮点

实际价值

4️⃣ 术语表

密码管理

设置密码

修改密码

移除密码

菜单

提交新论文

需要登录

2510.08564 📝

📄 论文总结

1️⃣ 一句话总结

2️⃣ 论文创新点

1. 遗忘恢复现象

2. 输出标记分布偏移分析

3. 选择性参数更新策略

3️⃣ 主要结果与价值

结果亮点

实际价值

4️⃣ 术语表

2510.09189 📝

📄 论文总结

1️⃣ 一句话总结

2️⃣ 论文创新点

1. 基于指令模型的翻译增强方法

2. 层选择性优化技术

3. 两阶段优化策略

4. 高效数据利用

3️⃣ 主要结果与价值

结果亮点

实际价值

4️⃣ 术语表

2510.11696 📝

📄 论文总结

1️⃣ 一句话总结

2️⃣ 论文创新点

1. NVFP4量化与LoRA结合

2. 量化噪声增强探索

3. 自适应量化噪声机制

4. 噪声共享与集成策略

3️⃣ 主要结果与价值

结果亮点

实际价值

4️⃣ 术语表

获取最新论文摘要

2510.08564

2510.09189

2510.11696