arXiv ID:
2601.17640
arXiv 提交日期: 2026-01-25
面向儿童-成人交互的端到端联合语音识别与说话人角色划分 / End-to-End Joint ASR and Speaker Role Diarization with Child-Adult Interactions
1️⃣ 一句话总结
这篇论文提出了一种端到端的统一模型,能够同时完成语音识别和区分儿童与成人说话者的任务,相比传统串联式方法,它能减少错误传播,更高效、准确地生成带说话人标签的对话文本。