arXiv ID:
2603.23057
arXiv 提交日期: 2026-03-24
音频-语言模型中的提示放大与零样本后期融合用于语音情感识别 / Prompt Amplification and Zero-Shot Late Fusion in Audio-Language Models for Speech Emotion Recognition
1️⃣ 一句话总结
这篇论文提出了一种名为ZS-Fuse的新方法,通过将通用音频-语言模型的零样本情感预测与专业语音模型的输出进行后期融合,并结合提示词集成与创新的提示放大技术,有效提升了语音情感识别的准确率,在多个数据集上超越了现有先进模型。