arXiv最新AI论文速览速学

🔍

标签: #multi-modal ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 70 72小时内新更新论文 72h更新 147 最新: Position: How can Graphs Help Large Language Models? 05-05

arXiv ID: 2511.23469

arXiv 提交日期: 2025-11-28

multi-modal model training aigc vision-language models visual generation autoregressive modeling latent representation image reconstruction

视觉生成调优 / Visual Generation Tuning

1️⃣ 一句话总结

这项研究提出了一种名为VGT的新方法，能够高效地激发现有视觉语言模型的视觉生成潜力，使其在图像重建和生成任务上取得优异表现，为构建下一代统一的多模态基础模型开辟了新途径。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.23199

arXiv 提交日期: 2025-11-28

computer vision model training multi-modal bridge models conditional generation image editing video translation transformer architecture

大规模视觉桥接变换器 / Vision Bridge Transformer at Scale

1️⃣ 一句话总结

这篇论文提出了一种名为ViBT的大规模视觉桥接变换器模型，它通过直接建模输入与输出之间的转换路径，而非从噪声生成数据，从而高效地实现了图像和视频的编辑与翻译任务，并在高达200亿参数的规模上验证了其有效性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.23127

arXiv 提交日期: 2025-11-28

video generation computer vision multi-modal camera control diffusion model rgb-depth fusion video synthesis geometry-aware generation

DualCamCtrl：用于几何感知相机控制视频生成的双分支扩散模型 / DualCamCtrl: Dual-Branch Diffusion Model for Geometry-Aware Camera-Controlled Video Generation

1️⃣ 一句话总结

这篇论文提出了一个名为DualCamCtrl的新模型，它通过同时生成颜色和深度视频的双分支框架，并利用语义引导的融合机制，显著提升了根据指定相机轨迹生成视频的准确性和几何一致性，比之前的方法减少了超过40%的相机运动误差。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.22982

arXiv 提交日期: 2025-11-28

aigc model training multi-modal text-to-image text rendering diffusion model multimodal backbone efficient deployment

Ovis-Image技术报告 / Ovis-Image Technical Report

1️⃣ 一句话总结

这篇论文介绍了一个名为Ovis-Image的高效文本生成图像模型，它虽然体积小巧，但通过结合强大的多模态核心和专注于文本的训练方法，能够在普通高端显卡上实现媲美大型模型的文字渲染质量。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.22826

arXiv 提交日期: 2025-11-28

multi-modal model evaluation natural language processing multimodal robustness modality alignment benchmark interpretability multimodal integration

并非所有模态都平等：解码与构建多模态大语言模型中的模态整合 / Some Modalities are More Equal Than Others: Decoding and Architecting Multimodal Integration in MLLMs

1️⃣ 一句话总结

这篇论文发现当前的多模态大语言模型在面对相互矛盾的视听或文本信息时容易出错，缺乏稳健的跨模态推理能力，并为此提出了一种新的模态对齐调优方法，以教导模型何时应优先考虑、利用或忽略特定的模态线索，从而提升其多模态理解的可靠性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.23386

arXiv 提交日期: 2025-11-28

multi-modal model training computer vision vector quantization unified representation vision transformer autoencoder semantic codebook

VQRAE：用于多模态理解、生成与重建的表征量化自编码器 / VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction

1️⃣ 一句话总结

这篇论文提出了一个名为VQRAE的新型统一模型，它能够在一个框架内同时处理图像的理解、生成和精细重建任务，其核心创新在于使用一个高维语义编码本将连续语义特征和离散生成令牌统一起来。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.22805

arXiv 提交日期: 2025-11-27

multi-modal model evaluation benchmark multimodal llms human alignment cognitive perception image understanding post-training

从像素到感受：对齐多模态大语言模型与人类对图像的认知感知 / From Pixels to Feelings: Aligning MLLMs with Human Cognitive Perception of Images

1️⃣ 一句话总结

这篇论文通过构建一个评估基准和提出一种后训练方法，成功让多模态大模型学会像人类一样感知图像的主观特性（如是否令人难忘、有趣或美观），并证明了这种能力能有效提升图像生成等下游任务的人本化水平。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.22787

arXiv 提交日期: 2025-11-27

multi-modal model evaluation natural language processing vision-language models cultural understanding visual question answering benchmark robustness

一帧中的世界：理解文化混合作为视觉语言模型的新挑战 / World in a Frame: Understanding Culture Mixing as a New Challenge for Vision-Language Models

1️⃣ 一句话总结

这篇论文指出，当来自不同文化的元素（如食物和背景）同时出现在一个画面中时，现有的大型视觉语言模型难以准确识别并保持它们各自的文化身份，为此作者创建了一个名为CultureMix的评测基准，并发现通过使用包含文化混合数据的监督微调可以有效提升模型在此类场景下的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.22663

arXiv 提交日期: 2025-11-27

multi-modal model training aigc multimodal models attention alignment task conflicts image generation model understanding

架构解耦并非统一多模态模型的全部答案 / Architecture Decoupling Is Not All You Need For Unified Multimodal Model

1️⃣ 一句话总结

这篇论文提出了一种名为‘注意力交互对齐’的新方法，它通过直接学习任务特定的多模态交互模式，在不拆分模型结构的情况下，有效缓解了统一多模态模型中理解与生成任务的内在冲突，从而同时提升了模型的生成和理解能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.22659

arXiv 提交日期: 2025-11-27

agents multi-modal model evaluation spatial reasoning vision language models geometric constraints tool integration benchmark

用于空间推理的几何约束智能体 / Geometrically-Constrained Agent for Spatial Reasoning

1️⃣ 一句话总结

这篇论文提出了一种名为GCA的新方法，通过将视觉语言模型的角色分解为‘语义分析’和‘任务求解’两个阶段，并引入形式化的几何约束来严格指导推理过程，从而有效解决了现有模型在空间推理中语义理解与几何精度不匹配的核心问题，无需额外训练即可在多个基准测试上显著超越现有方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2511.23469

1️⃣ 一句话总结

arXiv ID: 2511.23199

1️⃣ 一句话总结

arXiv ID: 2511.23127

1️⃣ 一句话总结

arXiv ID: 2511.22982

1️⃣ 一句话总结

arXiv ID: 2511.22826

1️⃣ 一句话总结

arXiv ID: 2511.23386

1️⃣ 一句话总结

arXiv ID: 2511.22805

1️⃣ 一句话总结

arXiv ID: 2511.22787

1️⃣ 一句话总结

arXiv ID: 2511.22663

1️⃣ 一句话总结

arXiv ID: 2511.22659

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2511.23469 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.23199 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.23127 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.22982 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.22826 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.23386 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.22805 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.22787 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.22663 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.22659 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2511.23469

arXiv ID: 2511.23199

arXiv ID: 2511.23127

arXiv ID: 2511.22982

arXiv ID: 2511.22826

arXiv ID: 2511.23386

arXiv ID: 2511.22805

arXiv ID: 2511.22787

arXiv ID: 2511.22663

arXiv ID: 2511.22659