arXiv ID:
2603.20020
arXiv 提交日期: 2026-03-20
解耦跳跃连接与R-Probe:为多模态大语言模型OCR任务解耦特征聚合与梯度传播 / Detached Skip-Links and $R$-Probe: Decoupling Feature Aggregation from Gradient Propagation for MLLM OCR
1️⃣ 一句话总结
这篇论文发现并解决了多模态大模型在OCR任务中的一个关键训练问题:传统特征融合方法中的梯度干扰会破坏底层视觉细节,为此提出了一种在训练时阻断跳跃连接梯度传播的简单有效方法,并设计了一个诊断工具来验证模型是否保留了精细视觉信息,从而显著提升了OCR及相关多模态任务的性能。