arXiv最新AI论文速览速学

🔍

标签: #mixture-of-transformers ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 89 72小时内新更新论文 72h更新 172 最新: SpatialFusion: Endowing Unified Image Generation with Intrinsic 3D Geometric Awareness 04-30

arXiv ID: 2604.26341

arXiv 提交日期: 2026-04-29

computer vision multi-modal image generation 3d geometric awareness spatial understanding depth estimation mixture-of-transformers unified generation

SpatialFusion：赋予统一图像生成模型内在的3D几何感知能力 / SpatialFusion: Endowing Unified Image Generation with Intrinsic 3D Geometric Awareness

1️⃣ 一句话总结

本文提出SpatialFusion框架，通过在统一图像生成模型中引入并行空间变换器来学习深度信息，并将这些几何约束注入扩散模型，使得生成的图像在空间一致性上显著超越GPT-4o等现有模型，同时不增加额外推理开销。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.14851

arXiv 提交日期: 2026-03-16

multi-modal agents systems autonomous driving vision-language-action mixture-of-transformers end-to-end asynchronous inference

AutoMoT：一种用于端到端自动驾驶的、具有异步混合Transformer的统一视觉-语言-动作模型 / AutoMoT: A Unified Vision-Language-Action Model with Asynchronous Mixture-of-Transformers for End-to-End Autonomous Driving

1️⃣ 一句话总结

这篇论文提出了一个名为AutoMoT的新型自动驾驶模型，它巧妙地将视觉理解、语言推理和动作规划整合在一个框架内，通过异步处理机制既保留了通用大模型的推理能力，又实现了高效、实时的驾驶决策。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.14133

arXiv 提交日期: 2026-01-20

robotics multi-modal model training vision-language-action embodied ai catastrophic forgetting mixture-of-transformers robot manipulation

TwinBrainVLA：通过非对称混合变换器释放通用视觉语言模型在具身任务中的潜力 / TwinBrainVLA: Unleashing the Potential of Generalist VLMs for Embodied Tasks via Asymmetric Mixture-of-Transformers

1️⃣ 一句话总结

这篇论文提出了一种名为TwinBrainVLA的新模型架构，它通过一个‘左脑’保持通用视觉理解能力，同时用一个可训练的‘右脑’专门学习机器人精细动作，从而解决了机器人控制任务中模型既要懂世界又要会动手的冲突，在保持高水平语义理解的同时实现了更精确的操控。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.12993

arXiv 提交日期: 2026-01-19

robotics multi-modal model training vision-language-action cross-embodiment generalization human-centric learning mixture-of-transformers robotic control

Being-H0.5：面向跨形态泛化的人本机器人学习规模化模型 / Being-H0.5: Scaling Human-Centric Robot Learning for Cross-Embodiment Generalization

1️⃣ 一句话总结

这篇论文提出了一个名为Being-H0.5的通用机器人基础模型，它通过将人类操作数据作为‘通用语言’来训练，使不同形态和能力的机器人能够相互学习技能，从而在多种真实和模拟机器人平台上实现了卓越的跨平台适应与任务执行能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.23222

arXiv 提交日期: 2025-12-29

multi-modal aigc video generation unified generation script-to-video mixture-of-transformers keyframe consistency interleaved learning

通过统一导演模型连接想象与音视频生成 / Bridging Your Imagination with Audio-Video Generation via a Unified Director

1️⃣ 一句话总结

这篇论文提出了一个名为UniMAGE的统一导演模型，它能够将用户的想法自动转化为逻辑连贯的剧本和视觉一致的关键画面，从而帮助普通人轻松制作出多镜头、长内容的电影。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.05103

arXiv 提交日期: 2025-12-04

video generation multi-modal model training text-to-video interleaved generation reasoning flow matching mixture-of-transformers

TV2TV：一种用于交错式语言与视频生成的统一框架 / TV2TV: A Unified Framework for Interleaved Language and Video Generation

1️⃣ 一句话总结

这篇论文提出了一个名为TV2TV的新框架，它通过让AI模型在生成视频过程中穿插‘用文字思考’的步骤，来提升复杂视频的生成质量和可控性，使其能更好地理解和执行用户指令。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.20888

arXiv 提交日期: 2025-10-23

video generation aigc model training semantic control video diffusion in-context generation mixture-of-transformers zero-shot generalization

视频作为提示：视频生成的统一语义控制 / Video-As-Prompt: Unified Semantic Control for Video Generation

1️⃣ 一句话总结

这篇论文提出了一种名为VAP的新方法，通过将参考视频作为语义提示来指导视频生成，无需额外训练即可实现高质量、多样化的可控视频生成，并在多种任务中表现出强大的零样本泛化能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.26341

1️⃣ 一句话总结

arXiv ID: 2603.14851

1️⃣ 一句话总结

arXiv ID: 2601.14133

1️⃣ 一句话总结

arXiv ID: 2601.12993

1️⃣ 一句话总结

arXiv ID: 2512.23222

1️⃣ 一句话总结

arXiv ID: 2512.05103

1️⃣ 一句话总结

arXiv ID: 2510.20888

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.26341 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.14851 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.14133 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.12993 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.23222 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.05103 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.20888 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.26341

arXiv ID: 2603.14851

arXiv ID: 2601.14133

arXiv ID: 2601.12993

arXiv ID: 2512.23222

arXiv ID: 2512.05103

arXiv ID: 2510.20888