OneThinker:面向图像与视频的一体化推理模型 / OneThinker: All-in-one Reasoning Model for Image and Video
1️⃣ 一句话总结
这篇论文提出了一个名为OneThinker的统一模型,它能够同时处理图像和视频的多种核心视觉理解任务(如问答、描述、定位和分割),并通过创新的训练方法解决了多任务学习中的奖励不平衡问题,在多个基准测试上表现出色,向通用的多模态推理专家迈进了一步。
请先 登录 后再提交论文
OneThinker:面向图像与视频的一体化推理模型 / OneThinker: All-in-one Reasoning Model for Image and Video
这篇论文提出了一个名为OneThinker的统一模型,它能够同时处理图像和视频的多种核心视觉理解任务(如问答、描述、定位和分割),并通过创新的训练方法解决了多任务学习中的奖励不平衡问题,在多个基准测试上表现出色,向通用的多模态推理专家迈进了一步。
Qwen3-VL技术报告 / Qwen3-VL Technical Report
这篇论文介绍了通义千问系列目前最强的多模态大模型Qwen3-VL,它在文本理解、长上下文处理以及图像视频推理方面都表现卓越,并提供了从轻量到超大规模的不同版本,旨在成为现实应用中多模态智能的核心引擎。
Script:面向多模态大语言模型的图结构与查询条件语义令牌剪枝方法 / Script: Graph-Structured and Query-Conditioned Semantic Token Pruning for Multimodal Large Language Models
本文提出了一种名为Script的即插即用令牌剪枝方法,通过结合图结构剪枝和查询条件语义剪枝,在无需重新训练的情况下,显著提升了多模态大模型处理图像和视频时的计算效率与任务准确性。
像苏格拉底一样提问:苏格拉底助手帮助视觉语言模型理解遥感图像 / Asking like Socrates: Socrates helps VLMs understand remote sensing images
这篇论文针对视觉语言模型在分析遥感图像时存在的‘伪推理’问题,提出了一种名为RS-EoT的新方法,它通过模拟苏格拉底式的多轮问答和自我检查,引导模型逐步寻找视觉证据,从而实现了更准确、基于真实图像内容的推理。
StreamGaze:流媒体视频中的视线引导时序推理与前瞻性理解 / StreamGaze: Gaze-Guided Temporal Reasoning and Proactive Understanding in Streaming Videos
这篇论文提出了首个名为StreamGaze的基准测试,用于评估多模态大模型如何利用实时视线信号来理解动态视频内容、推断用户意图并进行前瞻性预测,结果发现现有模型在这些方面与人类能力存在显著差距。
通过分层令牌压缩加速流式视频大语言模型 / Accelerating Streaming Video Large Language Models via Hierarchical Token Compression
这篇论文提出了一种名为STC的分层压缩框架,通过缓存相似帧的特征和修剪冗余视觉令牌,在几乎不影响准确率的情况下,显著降低了流式视频大语言模型的处理延迟,使其更适合实时应用。
OmniFusion:通过模块化融合实现同步多语言多模态翻译 / OmniFusion: Simultaneous Multilingual Multimodal Translations via Modular Fusion
这篇论文提出了一种名为OmniFusion的新模型,它通过创新的融合方法,将强大的多模态基础模型与专门的多语言翻译大模型结合起来,从而能够直接利用语音和图像等多种信息进行实时、高质量的翻译,比传统分步方法更快更好。
文化褪色之处:揭示文本到图像生成中的文化鸿沟 / Where Culture Fades: Revealing the Cultural Gap in Text-to-Image Generation
这篇论文发现,当前的多语言文本生成图像模型在处理不同语言提示时,常常产生文化中立或偏向英语文化的结果,其根源在于模型内部文化相关表征未被充分激活,而非缺乏文化知识;为此,作者提出了一种定位文化敏感神经元的方法,并设计了两种无需全面微调模型的策略来增强生成图像的文化一致性。
利用视觉语言模型从业务流程图中进行结构化信息提取 / Structured Extraction from Business Process Diagrams Using Vision-Language Models
这篇论文提出了一种新方法,利用视觉语言模型直接从业务流程图的图片中自动提取出结构化的信息,即使没有原始的源文件也能准确识别图中的各种元素和文字。
DreamingComics:一种基于视频模型、通过主体与布局定制生成的故事可视化流程 / DreamingComics: A Story Visualization Pipeline via Subject and Layout Customized Generation using Video Models
这篇论文提出了一个名为DreamingComics的故事可视化新方法,它通过改进的视频模型和创新的布局控制技术,能根据文字脚本自动生成漫画风格且角色与画风高度一致的连续画面。