arXiv ID:
2607.02002
arXiv 提交日期: 2026-07-02
利用词嵌入预测普通话单音节词语的口语时长和音高 / Using embeddings to predict spoken word duration and pitch in Mandarin monosyllabic words
1️⃣ 一句话总结
本研究通过分析7470个普通话单音节词语的真实语音数据,发现基于上下文的词嵌入(CEs)不仅能预测词语的音高(已为前人证实),还能显著预测其发音时长,且预测精度足以将标准化的音高曲线还原到实际毫秒时间尺度,为语音合成与理解提供了新的定量工具。