arXiv最新AI论文速览速学

🔍

audio ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 39 72小时内新更新论文 72h更新 139 最新: SymphonyGen: 3D Hierarchical Orchestral Generation with Controllable Harmony Skeleton 05-02

arXiv ID: 2604.27279

arXiv 提交日期: 2026-04-30

audio machine learning medical stuttering prediction cnn on-device deployment clinical severity evaluation

基于三秒音频预测即将发生的口吃事件：分层评估揭示严重程度选择性前兆，模型完全部署于设备端 / Predicting Upcoming Stuttering Events from Three-Second Audio: Stratified Evaluation Reveals Severity-Selective Precursors, and the Model Deploys Fully On-Device

1️⃣ 一句话总结

本文首次实现了一种轻量级的音频模型（61.6万参数），能够仅凭3秒的语音片段预测接下来是否会发生口吃（尤其是重度口吃，如声音重复或言语阻塞），该模型准确率达到0.60以上的AUC，且可直接在手机等设备上以极低延迟（0.25-0.55毫秒）运行，无需联网或远程处理。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.27533

arXiv 提交日期: 2026-04-30

natural language processing model evaluation audio speech recognition rescoring language models error analysis semantic metrics

语音识别中语言模型重新评分方法的定性评估 / Qualitative Evaluation of Language Model Rescoring in Automatic Speech Recognition

1️⃣ 一句话总结

本文提出两种新的评估指标——词性错误率和嵌入错误率，分别从语法和语义角度分析语言模型在语音识别后处理中的实际贡献，弥补了传统词错误率仅关注替换、删除和插入错误数量而忽略语言质量的不足。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.26514

arXiv 提交日期: 2026-04-29

audio machine learning model training speech recognition text-only data integration encoder-dominated models modality matching dynamic downsampling

面向编码器主导型语音识别模型的文本利用方法 / Text-Utilization for Encoder-dominated Speech Recognition Models

1️⃣ 一句话总结

本文研究如何在以编码器为核心的语音识别模型中高效利用纯文本数据，通过模态匹配和动态降采样等技术，用更简单的配置（如随机时长模型）实现比复杂方法更好的识别效果，并证明了增大编码器、缩小解码器也能达到甚至超越传统大解码器架构的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.26242

arXiv 提交日期: 2026-04-29

audio machine learning medical digital biomarkers depression detection vocal dynamics recurrence analysis nonlinear dynamics

基于递归的非线性语音动力学作为从对话语音检测抑郁症的数字生物标志物 / Recurrence-Based Nonlinear Vocal Dynamics as Digital Biomarkers for Depression Detection from Conversational Speech

1️⃣ 一句话总结

该研究通过分析对话语音中声音状态随时间重复的模式（即递归结构），发现抑郁症患者的发声系统会以不同于健康人的方式重现某些声音特征，从而提出了一种新的、基于非线性动力学的数字生物标志物，比传统声学特征更有效地识别抑郁症。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.25498

arXiv 提交日期: 2026-04-28

audio machine learning model training symbolic music generation orchestration reinforcement learning harmony skeleton controllable generation

SymphonyGen：基于可控和声骨架的三维层次化管弦乐生成 / SymphonyGen: 3D Hierarchical Orchestral Generation with Controllable Harmony Skeleton

1️⃣ 一句话总结

该论文提出了一种名为SymphonyGen的三维层次化框架，通过将音乐结构分解为小节、轨道和事件三个维度，并引入基于节拍量化的多声部和声骨架作为控制信号，解决了现有模型在复杂性与可控性之间的平衡问题，从而高效生成高质量、多轨道的现代管弦乐曲。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.25441

arXiv 提交日期: 2026-04-28

audio natural language processing machine learning text-to-speech indic tts voice-prompt recovery phoneme space lora adapter

Praxy Voice：基于冻结的非印度语言基座模型，零商业训练数据实现商业级印度语言语音合成 / Praxy Voice: Voice-Prompt Recovery + BUPS for Commercial-Class Indic TTS from a Frozen Non-Indic Base at Zero Commercial-Training-Data Cost

1️⃣ 一句话总结

本研究提出了一种方法，仅通过改进文本编码和语音提示恢复策略，无需训练新的声学解码器或使用任何商业语音数据，就能让一个原本不支持印度语言的强大多语言语音合成模型（Chatterbox）在泰卢固语、泰米尔语和印地语上达到甚至超过商业系统的音质水平。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.25680

arXiv 提交日期: 2026-04-28

medical computer vision audio remote photoplethysmography neonatal pain detection facial video analysis signal quality assessment multi-modal fusion

基于面部视频的远程光电容积描记法用于新生儿疼痛检测的探索 / Exploring Remote Photoplethysmography for Neonatal Pain Detection from Facial Videos

1️⃣ 一句话总结

该研究提出了一种非接触式方法，通过分析面部视频中的远程光电容积描记信号来检测新生儿的疼痛，并利用信号质量指标筛选最优信号，结果表明结合蓝色通道信号和音频特征能显著提升检测效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.24401

arXiv 提交日期: 2026-04-27

audio multi-modal model evaluation benchmark text prior audio reliance evaluation

闪光的不一定是音频：重新审视音频-语言评估中的文本先验与音频依赖 / All That Glitters Is Not Audio: Rethinking Text Priors and Audio Reliance in Audio-Language Evaluation

1️⃣ 一句话总结

该论文指出，当前大型音频-语言模型在许多测试中取得的高分，往往不是因为它们真正理解了音频信号，而是依赖文本或常识就能猜出答案，只有极少数问题才真正需要完整音频，因此现有基准测试并不可靠，作者提出了更严格的评估方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.21706

arXiv 提交日期: 2026-04-23

machine learning audio medical self-supervised learning dysarthria assessment phonological features cross-lingual stability speech analysis

音位子空间坍塌具有病因特异性和跨语言稳定性：来自3374位说话者的证据 / Phonological Subspace Collapse Is Aetiology-Specific and Cross-Lingually Stable: Evidence from 3,374 Speakers

1️⃣ 一句话总结

本研究通过分析来自12种语言、3374位说话者的语音数据，发现利用自监督语音模型提取的音位特征空间塌缩模式，能够区分不同病因（如帕金森病、脑瘫等）导致的构音障碍，并且这些模式在不同语言间保持稳定，且不依赖于特定的模型架构。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.19151

arXiv 提交日期: 2026-04-21

machine learning benchmark audio automatic speech recognition indic languages evaluation real-world spelling variation

印度之声：面向印度真实场景语音识别的大规模基准测试 / Voice of India: A Large-Scale Benchmark for Real-World Speech Recognition in India

1️⃣ 一句话总结

本文构建了一个包含15种印度语言、来自真实电话对话的大规模语音识别基准数据集，并揭示了现有模型在拼写变体、地区差异和音频质量等方面的性能瓶颈，为改进实际场景下的印度语音识别系统提供了关键参考。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.27279

1️⃣ 一句话总结

arXiv ID: 2604.27533

1️⃣ 一句话总结

arXiv ID: 2604.26514

1️⃣ 一句话总结

arXiv ID: 2604.26242

1️⃣ 一句话总结

arXiv ID: 2604.25498

1️⃣ 一句话总结

arXiv ID: 2604.25441

1️⃣ 一句话总结

arXiv ID: 2604.25680

1️⃣ 一句话总结

arXiv ID: 2604.24401

1️⃣ 一句话总结

arXiv ID: 2604.21706

1️⃣ 一句话总结

arXiv ID: 2604.19151

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.27279 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.27533 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.26514 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.26242 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.25498 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.25441 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.25680 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.24401 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.21706 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.19151 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.27279

arXiv ID: 2604.27533

arXiv ID: 2604.26514

arXiv ID: 2604.26242

arXiv ID: 2604.25498

arXiv ID: 2604.25441

arXiv ID: 2604.25680

arXiv ID: 2604.24401

arXiv ID: 2604.21706

arXiv ID: 2604.19151