arXiv ID:
2604.02327
arXiv 提交日期: 2026-04-02
可操控的视觉表征 / Steerable Visual Representations
1️⃣ 一句话总结
这篇论文提出了一种新型视觉表征方法,能够通过自然语言指令来灵活控制模型关注图像中的任意对象,同时保持通用视觉任务的性能,解决了现有视觉模型要么无法被引导、要么过度依赖语言的问题。