arXiv ID:
2605.27365
arXiv 提交日期: 2026-05-26
LocateAnything:基于并行框解码的快速高质量视觉语言定位框架 / LocateAnything: Fast and High-Quality Vision-Language Grounding with Parallel Box Decoding
1️⃣ 一句话总结
本文提出LocateAnything框架,通过将边界框的几何元素作为一个整体并行解码,替代了传统逐令牌生成的方式,从而在保持高定位精度的同时大幅提升推理速度,并借助1.38亿样本的大规模数据集进一步强化了模型性能。