arXiv ID:
2606.18974
arXiv 提交日期: 2026-06-17
视觉-操作策略自蒸馏:面向高效统一多模态推理的跨模态在线学习方法 / Visual-OPSD: Cross-Modal On-Policy Self-Distillation for Efficient Unified Multimodal Reasoning
1️⃣ 一句话总结
本文发现多模态模型中生成的“视觉思维”虽然能提升推理效果,但其代价高昂的多步扩散过程实际上并未被充分利用,因此提出了一种新的自蒸馏方法:让模型在训练过程中只依赖问题文本而不生成图像,就能从教师模型中迁移出更高效的推理能力,最终在多个基准上实现大幅加速且性能提升。