arXiv ID:
2603.02557
arXiv 提交日期: 2026-03-03
CAPT:用于减少视觉-语言错位的混淆感知提示调优 / CAPT: Confusion-Aware Prompt Tuning for Reducing Vision-Language Misalignment
1️⃣ 一句话总结
本文提出了一种名为CAPT的混淆感知提示调优框架,通过让视觉-语言模型学习自身在相似类别间产生的系统性分类错误,从而显著减少混淆、提升模型的判别力和泛化能力。