ViSAudio:端到端的视频驱动双耳空间音频生成 / ViSAudio: End-to-End Video-Driven Binaural Spatial Audio Generation
1️⃣ 一句话总结
这篇论文提出了一个名为ViSAudio的端到端框架,能够直接从无声视频生成具有空间沉浸感的双耳音频,克服了传统两阶段方法导致的误差累积问题,并通过新构建的数据集和模型在实验中取得了优于现有方法的效果。
请先 登录 后再提交论文
ViSAudio:端到端的视频驱动双耳空间音频生成 / ViSAudio: End-to-End Video-Driven Binaural Spatial Audio Generation
这篇论文提出了一个名为ViSAudio的端到端框架,能够直接从无声视频生成具有空间沉浸感的双耳音频,克服了传统两阶段方法导致的误差累积问题,并通过新构建的数据集和模型在实验中取得了优于现有方法的效果。
AudioStory:一个用于生成连贯长叙事音频的端到端统一框架 / AudioStory: Generating Long-Form Narrative Audio with Large Language Models
本文提出了AudioStory,一个将大型语言模型与文本到音频生成系统集成的端到端框架,旨在通过交错推理生成和渐进式训练策略,解决现有模型在生成时间连贯、结构化的长叙事音频(如有声书、播客)方面的不足。
Step-Audio-R1技术报告 / Step-Audio-R1 Technical Report
这篇论文提出了首个音频推理模型Step-Audio-R1,通过创新的模态锚定推理蒸馏方法,成功让AI在理解声音时能够进行有效推理,在多项音频理解任务中超越了现有先进模型。
Step-Audio-EditX 技术报告 / Step-Audio-EditX Technical Report
这篇论文提出了首个基于大语言模型的开源音频编辑工具Step-Audio-EditX,它通过创新的合成数据训练方法,实现了对音频情感、说话风格等细节的高表现力编辑和零样本语音生成,并在多项任务中超越了现有先进模型。
如何利用源感知神经机器翻译指标评估语音翻译 / How to Evaluate Speech Translation with Source-Aware Neural MT Metrics
这篇论文提出了一种改进语音翻译自动评估的方法,通过生成音频输入的文本代理并结合创新的跨语言重分段算法,使源感知神经机器翻译指标在缺乏源文本转录的情况下也能更准确地反映翻译质量。
POWSM:一个语音开放耳语式语音基础模型 / POWSM: A Phonetic Open Whisper-Style Speech Foundation Model
这篇论文提出了一个名为POWSM的统一语音处理模型,能够同时完成语音识别、音素转换等多种语音相关任务,性能媲美专用模型,并支持开放科学共享。
SAKE:面向大型音频语言模型听觉属性知识的编辑 / SAKE: Towards Editing Auditory Attribute Knowledge of Large Audio-Language Models
这项研究提出了首个专门用于编辑大型音频语言模型中听觉属性知识的基准SAKE,通过评估多种编辑方法在多维指标上的表现,揭示了在保持知识一致性、泛化能力和持续更新方面的挑战,为音频模态的知识更新提供了新方向。
探究大型音频语言模型在说话者情绪变化下的安全漏洞 / Investigating Safety Vulnerabilities of Large Audio-Language Models Under Speaker Emotional Variations
这项研究发现,大型音频语言模型在面对不同情绪和强度的语音指令时,会产生不一致的安全反应,其中中等强度的情绪表达风险最高,揭示了模型在真实场景中部署的安全隐患。
MI-Fuse:基于闭源大型音频语言模型的无监督领域自适应标签融合方法 / MI-Fuse: Label Fusion for Unsupervised Domain Adaptation with Closed-Source Large-Audio Language Model
本文提出了一种名为MI-Fuse的无监督领域自适应方法,通过结合闭源大型音频语言模型和源域训练的分类器,在无法访问源数据的情况下,使轻量级学生模型在目标领域的语音情感识别任务上超越了原始大型模型的表现。
边听边思考:音频分类的简单测试时扩展方法 / Thinking While Listening: Simple Test Time Scaling For Audio Classification
这篇论文提出了一种让神经网络在识别日常声音时能够‘边听边思考’的方法,通过测试时扩展和推理机制,有效提升了音频分类的准确率,甚至用轻量级模型超越了大型语言模型的零样本推理性能。