arXiv ID:
2601.19194
arXiv 提交日期: 2026-01-27
SE-DiCoW:自注册的说话人分割条件化Whisper模型 / SE-DiCoW: Self-Enrolled Diarization-Conditioned Whisper
1️⃣ 一句话总结
本文提出了一种改进的语音识别方法,通过自动选取对话中说话人最活跃的片段作为固定参考,有效解决了多人重叠说话时身份混淆的问题,从而在多语言、多场景的语音转写任务中大幅提升了准确率。