arXiv ID:
2602.15651
arXiv 提交日期: 2026-02-17
UniTAF:用于联合文本到语音和音频到面部建模的模块化框架 / UniTAF: A Modular Framework for Joint Text-to-Speech and Audio-to-Face Modeling
1️⃣ 一句话总结
这篇论文提出了一个名为UniTAF的模块化框架,它将独立的文本转语音和音频转面部表情模型合并为一个统一模型,通过共享内部特征来提升文本生成语音和面部表情的一致性,并从系统设计角度验证了这种联合建模的可行性。