arXiv ID:
2601.18184
arXiv 提交日期: 2026-01-26
VIBEVOICE-ASR技术报告 / VIBEVOICE-ASR Technical Report
1️⃣ 一句话总结
这篇论文提出了一个名为VibeVoice-ASR的通用语音理解框架,它能够一次性处理长达60分钟的音频,将语音识别、说话人分离和时间戳生成整合成一个任务,支持多种语言和混合语言场景,并能通过用户提供的提示信息来提高专业术语和歧义词汇的识别准确率。