arXiv ID:
2605.14736
IsoNet:复杂声学环境中具有空间感知能力的视听目标语音提取系统 / IsoNet: Spatially-aware audio-visual target speech extraction in complex acoustic environments
1️⃣ 一句话总结
本文提出了一种名为IsoNet的紧凑型麦克风阵列系统,通过融合多通道音频特征、空间定位线索和面部视觉信息,并辅以方向监督训练,在传统波束成形方法失效的短孔径条件下,显著提升了从复杂嘈杂环境中提取特定说话人语音的性能。