arXiv ID:
2601.06993
arXiv 提交日期: 2026-01-11
文本推理能否提升多模态大语言模型在细粒度视觉分类上的性能? / Can Textual Reasoning Improve the Performance of MLLMs on Fine-grained Visual Classification?
1️⃣ 一句话总结
这篇论文发现,在多模态大模型执行细粒度图像分类任务时,让模型进行更长的文本推理(即“多思考”)反而会降低其分类准确率,作者将这一现象称为“思考的代价”,并提出了新的训练框架来约束推理长度、提升模型性能。