arXiv ID:
2605.04613
arXiv 提交日期: 2026-05-06
VocalParse:基于大型音频语言模型的统一且可扩展的歌声转录方法 / VocalParse: Towards Unified and Scalable Singing Voice Transcription with Large Audio Language Models
1️⃣ 一句话总结
本文提出了一种名为VocalParse的歌声转录模型,它利用大型音频语言模型,通过一种新颖的交错提示和思维链策略,能够直接从音频中同时识别歌词、旋律和词曲对齐,生成结构化乐谱,从而解决了传统多阶段转录系统复杂、泛化能力差的问题。