📄 论文总结
FuseCodec:面向神经编解码器的语义-上下文融合与监督方法 / FuseCodec: Semantic-Contextual Fusion and Supervision for Neural Codecs
1️⃣ 一句话总结
这篇论文提出了一种名为FuseCodec的新型语音编码方法,通过融合声学、语义和上下文信息并进行多层次的监督学习,显著提升了语音处理的准确度、自然度和说话人相似性,并在零样本语音合成任务中验证了其有效性。
请先 登录 后再提交论文
FuseCodec:面向神经编解码器的语义-上下文融合与监督方法 / FuseCodec: Semantic-Contextual Fusion and Supervision for Neural Codecs
这篇论文提出了一种名为FuseCodec的新型语音编码方法,通过融合声学、语义和上下文信息并进行多层次的监督学习,显著提升了语音处理的准确度、自然度和说话人相似性,并在零样本语音合成任务中验证了其有效性。
使用牛顿-拉弗森方法进行模拟电平放大器的声音匹配 / Sound Matching an Analogue Levelling Amplifier Using the Newton-Raphson Method
这篇论文提出了一种利用牛顿-拉弗森方法优化数字压缩器参数,从而高效模拟经典模拟电平放大器LA-2A声音特性的技术,并开发了开源的音频插件。
VStyle:基于语音指令的语音风格适应基准 / VStyle: A Benchmark for Voice Style Adaptation with Spoken Instructions
这篇论文提出了一个名为VStyle的双语基准测试,用于评估语音模型根据语音指令调整说话风格(如音色、语调)的能力,并引入了一个新的评估框架来客观衡量模型表现,发现当前模型在此任务上仍有明显局限。
EchoX:通过回声训练缓解语音大语言模型中的声学-语义鸿沟 / EchoX: Towards Mitigating Acoustic-Semantic Gap via Echo Training for Speech-to-Speech LLMs
这项研究提出了一种名为EchoX的新方法,通过结合声学和语义学习来训练语音大语言模型,有效解决了现有语音模型在知识和推理能力上的不足,使其在少量训练数据下也能达到先进的问答性能。
AHELM:音频-语言模型的全方位评估 / AHELM: A Holistic Evaluation of Audio-Language Models
这篇论文提出了一个名为AHELM的综合评估基准,通过标准化测试方法全面衡量音频-语言模型在感知、推理、公平性等10个关键维度的表现,发现现有模型在部分能力上表现优异但仍存在公平性等问题。
VibeVoice技术报告 / VibeVoice Technical Report
这篇论文提出了VibeVoice模型,它通过一种创新的连续语音分词器和扩散技术,能够高效合成长达90分钟、最多包含4位说话人的多角色长语音,并真实还原对话氛围,性能优于现有开源和商业模型。
万-S2V:音频驱动的影视视频生成 / Wan-S2V: Audio-Driven Cinematic Video Generation
这篇论文提出了一种名为Wan-S2V的音频驱动视频生成模型,它能够根据音频创造出包含细腻角色互动、自然身体动作和动态镜头的高质量影视级视频,在表现力和真实感上显著优于现有技术。