arXiv ID:
2601.20552
DeepSeek-OCR 2:视觉因果流 / DeepSeek-OCR 2: Visual Causal Flow
1️⃣ 一句话总结
这篇论文提出了一种模仿人类视觉感知方式的新型图像编码器,它能够根据图像内容智能地重新排列视觉信息,再交给大语言模型处理,为理解复杂图像提供了一种新思路。
DeepSeek-OCR 2:视觉因果流 / DeepSeek-OCR 2: Visual Causal Flow
这篇论文提出了一种模仿人类视觉感知方式的新型图像编码器,它能够根据图像内容智能地重新排列视觉信息,再交给大语言模型处理,为理解复杂图像提供了一种新思路。
Youtu-VL:通过统一的视觉-语言监督释放视觉潜能 / Youtu-VL: Unleashing Visual Potential via Unified Vision-Language Supervision
这篇论文提出了一个名为Youtu-VL的新框架,它通过将视觉信息也作为模型学习的目标(而非仅仅是辅助输入),让AI模型能更精细地理解图像内容,从而在多种视觉和图文任务上取得优秀表现。
VisGym:用于多模态智能体的多样化、可定制、可扩展的环境套件 / VisGym: Diverse, Customizable, Scalable Environments for Multimodal Agents
这篇论文提出了一个名为VisGym的多样化测试平台,用于评估和训练视觉语言模型在复杂交互任务中的表现,结果发现当前顶尖模型在需要多步骤视觉决策的任务上表现不佳,并指出了其具体缺陷和改进方向。
SAMTok:用两个词表示任意掩码 / SAMTok: Representing Any Mask with Two Words
这篇论文提出了一种名为SAMTok的新方法,它能够将复杂的图像分割区域(掩码)压缩成两个特殊的“词语”表示,从而让通用多模态大语言模型无需复杂改造,就能通过简单的语言学习方式理解和生成图像中的精确区域,显著提升了模型处理像素级任务的能力。
ProgressLM:迈向视觉语言模型中的进度推理 / PROGRESSLM: Towards Progress Reasoning in Vision-Language Models
这篇论文提出了一个名为Progress-Bench的基准测试来评估视觉语言模型在判断任务进度方面的能力,发现现有模型普遍表现不佳,并通过一种新的训练方法ProgressLM显著提升了模型在未见任务上的进度推理性能。
ChartVerse:通过可靠的程序化合成从头开始扩展图表推理能力 / ChartVerse: Scaling Chart Reasoning via Reliable Programmatic Synthesis from Scratch
这篇论文提出了一个名为ChartVerse的框架,它通过创新的程序化方法自动生成复杂多样的图表和高质量的问答数据,从而有效解决了视觉语言模型在图表推理任务中训练数据不足和质量不高的问题,并成功训练出性能领先的模型。
少即是多——直到它崩溃:大型视觉语言模型中视觉令牌压缩的安全隐患 / Less Is More -- Until It Breaks: Security Pitfalls of Vision Token Compression in Large Vision-Language Models
这篇论文发现,为了提高效率而在大型视觉语言模型中压缩视觉令牌,会严重削弱模型的抗干扰能力,使其在面对微小、不易察觉的输入扰动时更容易出错,从而揭示了一个此前被忽视的效率与安全之间的权衡问题。
Alterbute:编辑图像中物体的内在属性 / Alterbute: Editing Intrinsic Attributes of Objects in Images
这篇论文提出了一个名为Alterbute的新方法,它能够像修图一样精准地改变图片中某个物体的颜色、材质甚至形状,同时还能保持这个物体本身的‘身份’(比如一辆特定的汽车型号)和周围场景不变,效果比现有技术更好。
Molmo2:具备视频理解与定位能力的开源视觉语言模型及其权重与数据集 / Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding
这篇论文提出了一个名为Molmo2的开源视觉语言模型家族,它不仅通过一系列全新的开源数据集和创新的训练方法在视频理解任务上达到了开源模型的领先水平,还首次在开源模型中实现了对视频内容的像素级精确定位能力。
SkinFlow:通过动态视觉编码与分阶段强化学习实现开放式皮肤病诊断的高效信息传输 / SkinFlow: Efficient Information Transmission for Open Dermatological Diagnosis via Dynamic Visual Encoding and Staged RL
这篇论文提出了一种名为SkinFlow的新框架,它通过动态视觉编码和分阶段强化学习来优化视觉信息传输效率,使得一个仅70亿参数的小模型在皮肤病诊断任务上的准确率显著超越了参数量大得多的通用大模型,证明了在医学AI中提升几何能力和信息流比单纯堆叠参数更有效。
请先 登录 后再提交论文