arXiv ID:
2511.23469
视觉生成调优 / Visual Generation Tuning
1️⃣ 一句话总结
这项研究提出了一种名为VGT的新方法,能够高效地激发现有视觉语言模型的视觉生成潜力,使其在图像重建和生成任务上取得优异表现,为构建下一代统一的多模态基础模型开辟了新途径。
视觉生成调优 / Visual Generation Tuning
这项研究提出了一种名为VGT的新方法,能够高效地激发现有视觉语言模型的视觉生成潜力,使其在图像重建和生成任务上取得优异表现,为构建下一代统一的多模态基础模型开辟了新途径。
大规模视觉桥接变换器 / Vision Bridge Transformer at Scale
这篇论文提出了一种名为ViBT的大规模视觉桥接变换器模型,它通过直接建模输入与输出之间的转换路径,而非从噪声生成数据,从而高效地实现了图像和视频的编辑与翻译任务,并在高达200亿参数的规模上验证了其有效性。
DualCamCtrl:用于几何感知相机控制视频生成的双分支扩散模型 / DualCamCtrl: Dual-Branch Diffusion Model for Geometry-Aware Camera-Controlled Video Generation
这篇论文提出了一个名为DualCamCtrl的新模型,它通过同时生成颜色和深度视频的双分支框架,并利用语义引导的融合机制,显著提升了根据指定相机轨迹生成视频的准确性和几何一致性,比之前的方法减少了超过40%的相机运动误差。
Ovis-Image技术报告 / Ovis-Image Technical Report
这篇论文介绍了一个名为Ovis-Image的高效文本生成图像模型,它虽然体积小巧,但通过结合强大的多模态核心和专注于文本的训练方法,能够在普通高端显卡上实现媲美大型模型的文字渲染质量。
并非所有模态都平等:解码与构建多模态大语言模型中的模态整合 / Some Modalities are More Equal Than Others: Decoding and Architecting Multimodal Integration in MLLMs
这篇论文发现当前的多模态大语言模型在面对相互矛盾的视听或文本信息时容易出错,缺乏稳健的跨模态推理能力,并为此提出了一种新的模态对齐调优方法,以教导模型何时应优先考虑、利用或忽略特定的模态线索,从而提升其多模态理解的可靠性。
VQRAE:用于多模态理解、生成与重建的表征量化自编码器 / VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction
这篇论文提出了一个名为VQRAE的新型统一模型,它能够在一个框架内同时处理图像的理解、生成和精细重建任务,其核心创新在于使用一个高维语义编码本将连续语义特征和离散生成令牌统一起来。
从像素到感受:对齐多模态大语言模型与人类对图像的认知感知 / From Pixels to Feelings: Aligning MLLMs with Human Cognitive Perception of Images
这篇论文通过构建一个评估基准和提出一种后训练方法,成功让多模态大模型学会像人类一样感知图像的主观特性(如是否令人难忘、有趣或美观),并证明了这种能力能有效提升图像生成等下游任务的人本化水平。
一帧中的世界:理解文化混合作为视觉语言模型的新挑战 / World in a Frame: Understanding Culture Mixing as a New Challenge for Vision-Language Models
这篇论文指出,当来自不同文化的元素(如食物和背景)同时出现在一个画面中时,现有的大型视觉语言模型难以准确识别并保持它们各自的文化身份,为此作者创建了一个名为CultureMix的评测基准,并发现通过使用包含文化混合数据的监督微调可以有效提升模型在此类场景下的表现。
架构解耦并非统一多模态模型的全部答案 / Architecture Decoupling Is Not All You Need For Unified Multimodal Model
这篇论文提出了一种名为‘注意力交互对齐’的新方法,它通过直接学习任务特定的多模态交互模式,在不拆分模型结构的情况下,有效缓解了统一多模态模型中理解与生成任务的内在冲突,从而同时提升了模型的生成和理解能力。
用于空间推理的几何约束智能体 / Geometrically-Constrained Agent for Spatial Reasoning
这篇论文提出了一种名为GCA的新方法,通过将视觉语言模型的角色分解为‘语义分析’和‘任务求解’两个阶段,并引入形式化的几何约束来严格指导推理过程,从而有效解决了现有模型在空间推理中语义理解与几何精度不匹配的核心问题,无需额外训练即可在多个基准测试上显著超越现有方法。
请先 登录 后再提交论文