arXiv最新AI论文速览速学

🔍

audio ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 99 72小时内新更新论文 72h更新 99 最新: The Watermark Shortcut: How Provenance Marking Sabotages Audio Deepfake Detection 06-23

arXiv ID: 2606.04418

arXiv 提交日期: 2026-06-03

audio llm model training speech tokenization neural audio codec denoising speech intelligibility text-to-speech

CleanCodec：通过感知引导编码实现高效且鲁棒的语音分词化 / CleanCodec: Efficient and Robust Speech Tokenization via Perceptually Guided Encoding

1️⃣ 一句话总结

本文提出了一种名为CleanCodec的新型语音编解码器，它像一个智能过滤器，只提取语音中对人耳重要的关键信息（如说话人特征和语音清晰度），同时自动忽略背景噪音等无关信息，从而在极低的数据速率下实现更高效、更准确的语音重建，并大幅提升了后续语音合成任务的运行速度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.03957

arXiv 提交日期: 2026-06-02

audio llm model training speech recognition data augmentation conversational asr tts synthesis low-resource

从未发生过的对话：高效ASR训练方法 / Efficient ASR Training with Conversations that Never Happened

1️⃣ 一句话总结

本文提出一种利用大语言模型生成对话文本，再通过语音合成技术将其转为模拟对话音频的方法，从而在缺乏真实多人对话数据的低资源语言领域，有效提升自动语音识别模型的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.03359

arXiv 提交日期: 2026-06-02

audio machine learning model training speech emotion recognition lstm attention mechanism residual connections lightweight model

基于注意力机制和残差连接的LSTM网络的语音情感识别 / Speech Emotion Recognition using Attention-based LSTM-Network with Residual Connection

1️⃣ 一句话总结

本文提出了一种轻量级语音情感识别模型ResLSTM-SA，通过将残差连接和软注意力机制融入LSTM网络，在保持高准确率的同时将参数量减少至大规模模型的千分之一以下，适合在手机、智能音箱等边缘设备上实时运行。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.03504

arXiv 提交日期: 2026-06-02

audio natural language processing machine learning speech corpus asr whisper fine-tuning low-resource language balti

BaltiVoice：巴尔蒂语语音语料库及基于Whisper微调的语音识别系统 / BaltiVoice: A Speech Corpus and Fine-tuned Whisper ASR System for the Balti Language

1️⃣ 一句话总结

本文构建了首个公开的巴尔蒂语语音语料库（16.8小时），并通过微调Whisper-small模型将其语音识别词错误率从182.18%大幅降低至30.07%，为这一资源匮乏的藏语方言提供了完整的开源语音识别解决方案。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.01686

arXiv 提交日期: 2026-06-01

audio machine learning benchmark music production ai detection dataset ai tracking benchmark

HAIM：面向AI音乐制作追踪基准的人机音乐数据集 / HAIM: Human-AI Music Datasets for AI Music Production Tracking Benchmark

1️⃣ 一句话总结

本文指出现有AI音乐检测仅做“AI生成与否”的简单二分法已不合时宜，因为现实中人类和AI常混合参与创作（如AI生成后由人精修，或人创作后由AI母带处理），为此作者推出HAIM数据集，包含详细的制作阶段标注，旨在建立更精细的AI介入环节追踪基准，并揭示当前顶级检测器在此任务上的系统缺陷。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.30899

arXiv 提交日期: 2026-05-29

audio model evaluation machine learning speech understanding benchmarking reproducibility training pipeline evaluation framework

语音理解领域统一且可复现的实验框架 / A Unified and Reproducible Experimentation Framework for Speech Understanding

1️⃣ 一句话总结

该论文提出了一个名为SURE的统一实验框架，通过标准化预测格式、后处理流程和评估方法，解决了语音理解模型在部署时因评估标准不统一导致难以比较和复现的问题，同时该框架还引入了智能辅助的训练流程转换功能，帮助将论文代码转化为统一、可复现的训练管道。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.30073

arXiv 提交日期: 2026-05-28

multi-modal aigc audio audio-visual generation joint generation controllable generation diffusion model synchronization

面向生成的原生音视频对齐 / Native Audio-Visual Alignment for Generation

1️⃣ 一句话总结

本文提出了一种名为NAVA的音视频联合生成框架，通过先对齐音频与视频的对应关系、再结合外部文本条件引导生成过程的设计，有效解决了现有方法中音视频协同进化不足或语义条件与低级同步耦合的问题，仅用63亿参数即可生成高画质、同步精准、可控制音色的音视频内容。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.27840

arXiv 提交日期: 2026-05-27

audio multi-modal model training audio tokenizer semantic bottleneck generation understanding low-dimensional compression

LoSATok：面向跨领域音频理解与生成的低维语义-声学标记器 / LoSATok: Low-dimensional Semantic-Acoustic Tokenizer for Cross-Domain Audio Understanding and Generation

1️⃣ 一句话总结

本文提出了一种名为LoSATok的低维音频标记器，通过将高维语义特征压缩至128维并加入时间关系约束和双重语义监督，在保持优秀理解能力的同时显著降低了扩散Transformer生成模型的计算负担，在语音、音乐和通用音频任务上均取得了更高效的生成效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.28491

arXiv 提交日期: 2026-05-27

audio computer vision machine learning diffusion forcing audio-driven motion character control streaming generation causal encoder

DiscoForcing：基于扩散驱动的统一框架实现实时音频驱动角色控制 / DiscoForcing: A Unified Framework for Real-Time Audio-Driven Character Control with Diffusion Forcing

1️⃣ 一句话总结

该论文提出了一个名为DiscoForcing的实时音频驱动角色动画框架，它通过结合因果音乐编码器和扩散序列模型，能够在音频条件突然变化（如节奏切换或用户编辑）时，依然稳定、流畅地生成全身动作，并兼顾实时响应速度和长期动作连贯性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.27984

arXiv 提交日期: 2026-05-27

llm audio benchmark speech language models korean multilingual evaluation spoken question answering audio understanding

KVoiceBench、KOpenAudioBench和KMMAU：用于评估语音语言模型的语言驱动型韩语语音基准测试集 / KVoiceBench, KOpenAudioBench, and KMMAU: Agent-Driven Korean Speech Benchmarks for Evaluating SpeechLMs

1️⃣ 一句话总结

本文针对当前语音语言模型评测过度集中于英语的问题，提出了两种将现有英文或通用语音基准转化为高质量韩语基准的方法，并基于此创建了三个包含1.2万多个样本的韩语评测集（KVoiceBench、KOpenAudioBench和KMMAU），实验发现不同模型在英语和韩语上的表现差异很大，且口语问答与音频理解能力之间存在互补性的短板，揭示了仅用英语评测无法暴露的多语言性能缺陷。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.04418

1️⃣ 一句话总结

arXiv ID: 2606.03957

1️⃣ 一句话总结

arXiv ID: 2606.03359

1️⃣ 一句话总结

arXiv ID: 2606.03504

1️⃣ 一句话总结

arXiv ID: 2606.01686

1️⃣ 一句话总结

arXiv ID: 2605.30899

1️⃣ 一句话总结

arXiv ID: 2605.30073

1️⃣ 一句话总结

arXiv ID: 2605.27840

1️⃣ 一句话总结

arXiv ID: 2605.28491

1️⃣ 一句话总结

arXiv ID: 2605.27984

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.04418 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.03957 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.03359 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.03504 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.01686 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.30899 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.30073 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.27840 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.28491 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.27984 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.04418

arXiv ID: 2606.03957

arXiv ID: 2606.03359

arXiv ID: 2606.03504

arXiv ID: 2606.01686

arXiv ID: 2605.30899

arXiv ID: 2605.30073

arXiv ID: 2605.27840

arXiv ID: 2605.28491

arXiv ID: 2605.27984