arXiv ID:
2601.20552
DeepSeek-OCR 2:视觉因果流 / DeepSeek-OCR 2: Visual Causal Flow
1️⃣ 一句话总结
这篇论文提出了一种模仿人类视觉感知方式的新型图像编码器,它能够根据图像内容智能地重新排列视觉信息,再交给大语言模型处理,为理解复杂图像提供了一种新思路。
DeepSeek-OCR 2:视觉因果流 / DeepSeek-OCR 2: Visual Causal Flow
这篇论文提出了一种模仿人类视觉感知方式的新型图像编码器,它能够根据图像内容智能地重新排列视觉信息,再交给大语言模型处理,为理解复杂图像提供了一种新思路。
OpenVision 3:一个用于图像理解与生成的统一视觉编码器家族 / OpenVision 3: A Family of Unified Visual Encoder for Both Understanding and Generation
这篇论文提出了一个名为OpenVision 3的新型视觉编码器,它通过一种统一的训练方法,让同一个模型既能很好地理解图像内容,也能有效地生成新图像,打破了传统上理解和生成任务需要不同模型的限制。
CASA:通过自注意力实现交叉注意力,用于高效的视觉-语言融合 / CASA: Cross-Attention via Self-Attention for Efficient Vision-Language Fusion
这篇论文提出了一种名为CASA的新方法,它通过巧妙地在交叉注意力层中引入文本自注意力机制,显著提升了视觉-语言模型在处理图像细节时的性能,同时保持了模型在处理长视频或对话时的高效性。
从像素到感受:对齐多模态大语言模型与人类对图像的认知感知 / From Pixels to Feelings: Aligning MLLMs with Human Cognitive Perception of Images
这篇论文通过构建一个评估基准和提出一种后训练方法,成功让多模态大模型学会像人类一样感知图像的主观特性(如是否令人难忘、有趣或美观),并证明了这种能力能有效提升图像生成等下游任务的人本化水平。
请先 登录 后再提交论文