arXiv ID:
2604.24954
arXiv 提交日期: 2026-04-27
Nemotron 3 Nano Omni:高效且开放的多模态人工智能 / Nemotron 3 Nano Omni: Efficient and Open Multimodal Intelligence
1️⃣ 一句话总结
本文介绍了Nemotron 3 Nano Omni模型,它在支持文本、图像和视频的基础上首次原生集成音频输入,通过架构创新和数据优化在文档理解、长音视频理解和智能体计算机使用等任务上取得领先性能,并采用高效的30B-A3B骨干网络和模态令牌压缩技术,大幅降低推理延迟、提升吞吐量,同时开源多种精度的模型权重及部分训练数据和代码。