arXiv最新AI论文速览速学

🔍

标签: #image understanding ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 50 72小时内新更新论文 72h更新 50 最新: DeepSeek-OCR 2: Visual Causal Flow 01-29

arXiv ID: 2601.20552

arXiv 提交日期: 2026-01-28

computer vision multi-modal model training optical character recognition visual token reordering causal reasoning vision-language models image understanding

DeepSeek-OCR 2：视觉因果流 / DeepSeek-OCR 2: Visual Causal Flow

1️⃣ 一句话总结

这篇论文提出了一种模仿人类视觉感知方式的新型图像编码器，它能够根据图像内容智能地重新排列视觉信息，再交给大语言模型处理，为理解复杂图像提供了一种新思路。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.15369

arXiv 提交日期: 2026-01-21

computer vision multi-modal model training vision encoder unified representation image understanding image generation vit-vae

OpenVision 3：一个用于图像理解与生成的统一视觉编码器家族 / OpenVision 3: A Family of Unified Visual Encoder for Both Understanding and Generation

1️⃣ 一句话总结

这篇论文提出了一个名为OpenVision 3的新型视觉编码器，它通过一种统一的训练方法，让同一个模型既能很好地理解图像内容，也能有效地生成新图像，打破了传统上理解和生成任务需要不同模型的限制。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.19535

arXiv 提交日期: 2025-12-22

multi-modal model training natural language processing vision-language models cross-attention efficient fusion image understanding video captioning

CASA：通过自注意力实现交叉注意力，用于高效的视觉-语言融合 / CASA: Cross-Attention via Self-Attention for Efficient Vision-Language Fusion

1️⃣ 一句话总结

这篇论文提出了一种名为CASA的新方法，它通过巧妙地在交叉注意力层中引入文本自注意力机制，显著提升了视觉-语言模型在处理图像细节时的性能，同时保持了模型在处理长视频或对话时的高效性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.22805

arXiv 提交日期: 2025-11-27

multi-modal model evaluation benchmark multimodal llms human alignment cognitive perception image understanding post-training

从像素到感受：对齐多模态大语言模型与人类对图像的认知感知 / From Pixels to Feelings: Aligning MLLMs with Human Cognitive Perception of Images

1️⃣ 一句话总结

这篇论文通过构建一个评估基准和提出一种后训练方法，成功让多模态大模型学会像人类一样感知图像的主观特性（如是否令人难忘、有趣或美观），并证明了这种能力能有效提升图像生成等下游任务的人本化水平。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2601.20552

1️⃣ 一句话总结

arXiv ID: 2601.15369

1️⃣ 一句话总结

arXiv ID: 2512.19535

1️⃣ 一句话总结

arXiv ID: 2511.22805

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2601.20552 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.15369 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.19535 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.22805 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2601.20552

arXiv ID: 2601.15369

arXiv ID: 2512.19535

arXiv ID: 2511.22805