arXiv ID:
2603.10468
G-STAR:端到端的全局说话人追踪与属性识别 / G-STAR: End-to-End Global Speaker-Tracking Attributed Recognition
1️⃣ 一句话总结
这篇论文提出了一个名为G-STAR的端到端系统,它结合了时间感知的说话人追踪模块和语音大语言模型转录主干,旨在解决长篇幅、多说话人重叠语音场景下的时间戳标注和跨片段说话人身份一致性识别难题。