arXiv ID:
2603.22042
arXiv 提交日期: 2026-03-23
双曲视觉语言模型中基于不确定性引导的、具有部分到整体语义代表性的组合对齐 / Uncertainty-guided Compositional Alignment with Part-to-Whole Semantic Representativeness in Hyperbolic Vision-Language Models
1️⃣ 一句话总结
这篇论文提出了一种名为UNCHA的新方法,通过引入双曲不确定性来衡量图像中各个部分对整体场景的语义代表性差异,并利用这种不确定性来指导模型学习,从而让视觉语言模型能更准确地理解包含多个对象的复杂图像层次结构,并在多项基准测试中取得了领先性能。