arXiv ID:
2606.24066
VieSpeaker:一个不依赖视觉信息的大规模越南语说话人识别数据集 / VieSpeaker: A Large-Scale Vietnamese Speaker Recognition Dataset Beyond Visual Dependency
1️⃣ 一句话总结
该论文通过利用文本元数据和大语言模型推理来识别说话人身份,构建了一个不依赖面部图像的大规模越南语说话人识别数据集,显著提升了模型在越南语上的鲁棒性和泛化能力。