arXiv最新AI论文速览速学

🔍

标签: #vision-language model ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 100 72小时内新更新论文 72h更新 100 最新: FusionRS: A Large-Scale RGB-Infrared Remote Sensing Dataset for Dual-Modal Vision-Language Foundation Models 06-22

arXiv ID: 2511.21631

arXiv 提交日期: 2025-11-26

multi-modal llm model evaluation vision-language model long-context mixture-of-experts benchmark video understanding

Qwen3-VL技术报告 / Qwen3-VL Technical Report

1️⃣ 一句话总结

这篇论文介绍了通义千问系列目前最强的多模态大模型Qwen3-VL，它在文本理解、长上下文处理以及图像视频推理方面都表现卓越，并提供了从轻量到超大规模的不同版本，旨在成为现实应用中多模态智能的核心引擎。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.16669

arXiv 提交日期: 2025-11-20

video generation multi-modal reinforcement learning next-event prediction video diffusion vision-language model instruction-conditioned generation procedural learning

视频作为答案：利用联合GRPO预测并生成下一视频事件 / Video-as-Answer: Predict and Generate Next Video Event with Joint-GRPO

1️⃣ 一句话总结

这篇论文提出了一种新方法，能够根据视频和问题直接生成展示下一事件的视频答案，而不是文字描述，使得教学和创意探索更加直观。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.16595

arXiv 提交日期: 2025-11-20

multi-modal model training video video understanding mamba-transformer token compression long video vision-language model

TimeViper：一种用于高效长视频理解的混合Mamba-Transformer视觉语言模型 / TimeViper: A Hybrid Mamba-Transformer Vision-Language Model for Efficient Long Video Understanding

1️⃣ 一句话总结

这篇论文提出了一个名为TimeViper的混合模型，它结合了Mamba和Transformer的优势，通过创新的信息压缩技术高效处理长达一小时的视频，在保持高性能的同时大幅提升了长视频理解能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.15186

arXiv 提交日期: 2025-11-19

medical computer vision natural language processing lesion segmentation chest x-ray instruction-guided vision-language model medical imaging

基于指令引导的胸部X光病灶分割及自动生成的大规模数据集 / Instruction-Guided Lesion Segmentation for Chest X-rays with Automatically Generated Large-Scale Dataset

1️⃣ 一句话总结

这项研究提出了一个名为指令引导病灶分割的新方法，通过自动构建的大规模数据集和训练模型，使医生仅需简单指令即可在胸部X光片中精确分割多种病灶，并生成文字解释，大大提升了医疗影像分析的效率和实用性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.13648

arXiv 提交日期: 2025-11-17

computer vision robotics systems 3d generation physical simulation articulated objects vision-language model embodied ai

PhysX-Anything：从单张图像生成仿真就绪的物理3D资产 / PhysX-Anything: Simulation-Ready Physical 3D Assets from Single Image

1️⃣ 一句话总结

这项研究开发了一个能从单张真实世界图片直接生成具备精确几何结构、关节活动和物理属性的3D模型框架，解决了现有3D生成技术忽略物理特性的问题，让生成的模型能直接用于机器人仿真训练。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.14528

arXiv 提交日期: 2025-10-16

multi-modal natural language processing computer vision document parsing vision-language model multilingual ocr visual encoder resource-efficient

PaddleOCR-VL：通过0.9B超紧凑视觉语言模型提升多语言文档解析能力 / PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model

1️⃣ 一句话总结

这篇论文提出了一种名为PaddleOCR-VL的高效文档解析模型，其核心是一个仅0.9B参数的紧凑视觉语言模型，能准确识别109种语言中的文本、表格、公式和图表等复杂元素，并在性能和速度上超越现有方案，适合实际部署。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.14033

arXiv 提交日期: 2025-09-17

multi-modal model training natural language processing vision-language model multimodal reasoning mixture-of-experts progressive training benchmark evaluation

SAIL-VL2 技术报告 / SAIL-VL2 Technical Report

1️⃣ 一句话总结

SAIL-VL2是一个先进的开放视觉语言基础模型，通过大规模数据优化、渐进式训练和高效架构设计，在图像和视频理解任务中实现了顶尖性能，尤其在复杂推理任务上表现卓越。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.13317

arXiv 提交日期: 2025-09-16

computer vision multi-modal model training 3d vision vision-language model spatial reasoning region prompting representation learning

空间区域3D感知视觉语言模型 / 3D Aware Region Prompted Vision Language Model

1️⃣ 一句话总结

这篇论文提出了一种能够将2D图像和3D数据统一理解的新模型，用户只需在单张图片或3D空间中简单标注，就能实现跨视角的精确空间推理和测量，无需复杂标注即可应用于真实场景视频分析。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.06771

arXiv 提交日期: 2025-09-08

natural language processing computer vision multi-modal dark humor detection multimodal reasoning vision-language model content moderation benchmark dataset

D-HUMOR：通过多模态开放式推理理解黑色幽默——一个基准数据集与方法 / D-HUMOR: Dark Humor Understanding via Multimodal Open-ended Reasoning -- A Benchmark Dataset and Method

1️⃣ 一句话总结

这篇论文提出了一个专门用于识别网络表情包中黑色幽默的数据集和一种多模态推理增强方法，通过让AI模型模拟作者视角生成解释并融合图文信息，显著提升了黑色幽默检测、目标识别和强度预测的准确率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2508.21066

arXiv 提交日期: 2025-08-28

model training computer vision multi-modal reinforcement learning mask-guided generation human preference vision-language model image editing

OneReward：基于多任务人类偏好学习的统一掩码引导图像生成 / OneReward: Unified Mask-Guided Image Generation via Multi-Task Human Preference Learning

1️⃣ 一句话总结

这篇论文提出了一个名为OneReward的统一强化学习框架，它仅使用一个奖励模型就能提升模型在多种图像编辑任务（如填充、扩展、物体移除和文字渲染）中的生成质量，无需针对每个任务单独训练，并在实验中超越了多个商业和开源竞争对手。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2511.21631

1️⃣ 一句话总结

arXiv ID: 2511.16669

1️⃣ 一句话总结

arXiv ID: 2511.16595

1️⃣ 一句话总结

arXiv ID: 2511.15186

1️⃣ 一句话总结

arXiv ID: 2511.13648

1️⃣ 一句话总结

arXiv ID: 2510.14528

1️⃣ 一句话总结

arXiv ID: 2509.14033

1️⃣ 一句话总结

arXiv ID: 2509.13317

1️⃣ 一句话总结

arXiv ID: 2509.06771

1️⃣ 一句话总结

arXiv ID: 2508.21066

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2511.21631 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.16669 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.16595 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.15186 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.13648 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.14528 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.14033 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.13317 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.06771 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2508.21066 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2511.21631

arXiv ID: 2511.16669

arXiv ID: 2511.16595

arXiv ID: 2511.15186

arXiv ID: 2511.13648

arXiv ID: 2510.14528

arXiv ID: 2509.14033

arXiv ID: 2509.13317

arXiv ID: 2509.06771

arXiv ID: 2508.21066