arXiv ID:
2605.15044
arXiv 提交日期: 2026-05-14
SpeakerLLM:面向说话人理解与验证推理的专门化音频大语言模型 / SpeakerLLM: A Speaker-Specialized Audio-LLM for Speaker Understanding and Verification Reasoning
1️⃣ 一句话总结
本文提出了一种名为SpeakerLLM的音频大语言模型,它能够像人类专家一样,不仅判断两段语音是否来自同一人,还能用自然语言解释声音特征、录音环境等细节,从而在智能音箱、机器人等场景中实现更灵活、可解释的说话人身份验证与个性化交互。