arXiv ID:
2603.02546
arXiv 提交日期: 2026-03-03
论判别式与生成式分类器:重新思考用于动作理解的多模态大语言模型 / On Discriminative vs. Generative classifiers: Rethinking MLLMs for Action Understanding
1️⃣ 一句话总结
这篇论文发现,在封闭场景的动作理解任务中,基于多模态大语言模型的判别式分类器比生成式分类器更准确高效,并提出了一种仅在微调阶段引入生成式辅助的混合方法,显著提升了模型性能与推理速度。