arXiv ID:
2601.19228
通过简单点预测实现像素级视觉语言模型感知 / Towards Pixel-Level VLM Perception via Simple Points Prediction
1️⃣ 一句话总结
这篇论文提出了一种名为SimpleSeg的简单有效方法,通过让多模态大语言模型直接预测描述物体边界的坐标点序列,成功赋予了它像素级的图像分割能力,无需复杂专用设计就能达到甚至超越传统方法的性能。