arXiv最新AI论文速览速学

🔍

标签: #unified multimodal models ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 50 72小时内新更新论文 72h更新 50 最新: Visual-OPSD: Cross-Modal On-Policy Self-Distillation for Efficient Unified Multimodal Reasoning 06-18

arXiv ID: 2606.18974

arXiv 提交日期: 2026-06-17

multi-modal model training model evaluation unified multimodal models self-distillation visual thoughts reasoning efficiency

视觉-操作策略自蒸馏：面向高效统一多模态推理的跨模态在线学习方法 / Visual-OPSD: Cross-Modal On-Policy Self-Distillation for Efficient Unified Multimodal Reasoning

1️⃣ 一句话总结

本文发现多模态模型中生成的“视觉思维”虽然能提升推理效果，但其代价高昂的多步扩散过程实际上并未被充分利用，因此提出了一种新的自蒸馏方法：让模型在训练过程中只依赖问题文本而不生成图像，就能从教师模型中迁移出更高效的推理能力，最终在多个基准上实现大幅加速且性能提升。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.17766

arXiv 提交日期: 2026-05-18

multi-modal machine learning model training unified multimodal models latent space alignment semantic consistency preference optimization cross-modal alignment

LatentUMM：面向统一多模态模型的双重潜空间对齐方法 / LatentUMM: Dual Latent Alignment for Unified Multimodal Models

1️⃣ 一句话总结

本文提出一种名为LatentUMM的新框架，通过在统一多模态模型中引入双重潜空间对齐（同时对齐不同模态间以及编码与生成过程），解决了模型在理解与生成任务之间存在的功能不一致问题，从而显著提升了跨模态转换时的语义一致性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.02014

arXiv 提交日期: 2025-12-01

multi-modal model training computer vision unified multimodal models visual representation image generation video generation multimodal understanding

TUNA：为原生统一多模态模型驯服统一的视觉表示 / TUNA: Taming Unified Visual Representations for Native Unified Multimodal Models

1️⃣ 一句话总结

这篇论文提出了一个名为TUNA的原生统一多模态模型，它通过构建一个统一的连续视觉表示空间，让同一个模型既能理解图像和视频，也能生成和编辑它们，并且在各项任务上都取得了领先的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.18974

1️⃣ 一句话总结

arXiv ID: 2605.17766

1️⃣ 一句话总结

arXiv ID: 2512.02014

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.18974 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.17766 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.02014 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.18974

arXiv ID: 2605.17766

arXiv ID: 2512.02014