arXiv ID:
2601.16093
SAMTok:用两个词表示任意掩码 / SAMTok: Representing Any Mask with Two Words
1️⃣ 一句话总结
这篇论文提出了一种名为SAMTok的新方法,它能够将复杂的图像分割区域(掩码)压缩成两个特殊的“词语”表示,从而让通用多模态大语言模型无需复杂改造,就能通过简单的语言学习方式理解和生成图像中的精确区域,显著提升了模型处理像素级任务的能力。