arXiv ID:
2605.30311
Archon:面向全方位数字人生成的统一多模态模型 / Archon: A Unified Multimodal Model for Holistic Digital Human Generation
1️⃣ 一句话总结
本文提出一个名为Archon的统一多模态模型,它能同时处理文本、音频、动作和视觉等七种模态,通过高效的令牌压缩和逐步推理策略,高质量地生成逼真的数字人说话视频及其他虚拟人物内容。