arXiv ID:
2603.08249
arXiv 提交日期: 2026-03-09
在零视听资源场景下利用合成视觉数据引导视听语音识别 / Bootstrapping Audiovisual Speech Recognition in Zero-AV-Resource Scenarios with Synthetic Visual Data
1️⃣ 一句话总结
这篇论文提出了一种创新方法,通过将静态人脸图像与真实音频合成唇语视频,解决了低资源语言因缺乏标注视频数据而难以开发视听语音识别系统的问题,并在加泰罗尼亚语上验证了该方法的有效性。