arXiv ID:
2603.03158
arXiv 提交日期: 2026-03-03
孟加拉语长篇幅语音转录与说话人日志化的多种方法研究 / An Investigation Into Various Approaches For Bengali Long-Form Speech Transcription and Bengali Speaker Diarization
1️⃣ 一句话总结
本研究针对孟加拉语这一低资源语言,通过结合微调Whisper模型进行语音转录和集成pyannote模型进行说话人分离的多阶段方法,有效解决了长达一小时的录音中‘谁在何时说了什么’的难题,显著提升了相关AI任务的性能。