arXiv ID:
2603.10877
arXiv 提交日期: 2026-03-11
从图像到文字:面向语言模型的高效跨模态知识蒸馏(来自黑盒教师模型) / From Images to Words: Efficient Cross-Modal Knowledge Distillation to Language Models from Black-box Teachers
1️⃣ 一句话总结
这篇论文提出了一个名为ARMADA的高效跨模态知识蒸馏框架,它能够将大型视觉-语言模型(包括无法获取内部结构的黑盒模型)的知识迁移到纯语言模型中,从而显著提升语言模型在理解和生成任务上的性能,且无需对教师模型进行昂贵的多模态预训练或微调。