arXiv最新AI论文速览速学

🔍

标签: #speech recognition ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 50 72小时内新更新论文 72h更新 50 最新: IndicContextEval: A Benchmark for Evaluating Context Utilisation in Audio Large Language Models Across 8 Indic Languages 06-18

arXiv ID: 2606.19157

arXiv 提交日期: 2026-06-17

audio benchmark natural language processing audio llms context utilisation indic languages speech recognition evaluation benchmark

IndicContextEval：评估音频大语言模型在8种印度语言中上下文利用能力的基准测试 / IndicContextEval: A Benchmark for Evaluating Context Utilisation in Audio Large Language Models Across 8 Indic Languages

1️⃣ 一句话总结

为了检验音频大语言模型是否真正利用文本提示中的上下文（如领域或实体列表）来提升语音识别效果，而非仅依赖模型自身记忆，作者构建了一个涵盖8种印度语言、555位发言人和23个专业领域的56小时多语言基准测试，并设计了7级渐进式提示框架，结果发现不同模型在利用上下文的能力上存在显著差异。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.03957

arXiv 提交日期: 2026-06-02

audio llm model training speech recognition data augmentation conversational asr tts synthesis low-resource

从未发生过的对话：高效ASR训练方法 / Efficient ASR Training with Conversations that Never Happened

1️⃣ 一句话总结

本文提出一种利用大语言模型生成对话文本，再通过语音合成技术将其转为模拟对话音频的方法，从而在缺乏真实多人对话数据的低资源语言领域，有效提升自动语音识别模型的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.27533

arXiv 提交日期: 2026-04-30

natural language processing model evaluation audio speech recognition rescoring language models error analysis semantic metrics

语音识别中语言模型重新评分方法的定性评估 / Qualitative Evaluation of Language Model Rescoring in Automatic Speech Recognition

1️⃣ 一句话总结

本文提出两种新的评估指标——词性错误率和嵌入错误率，分别从语法和语义角度分析语言模型在语音识别后处理中的实际贡献，弥补了传统词错误率仅关注替换、删除和插入错误数量而忽略语言质量的不足。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.26514

arXiv 提交日期: 2026-04-29

audio machine learning model training speech recognition text-only data integration encoder-dominated models modality matching dynamic downsampling

面向编码器主导型语音识别模型的文本利用方法 / Text-Utilization for Encoder-dominated Speech Recognition Models

1️⃣ 一句话总结

本文研究如何在以编码器为核心的语音识别模型中高效利用纯文本数据，通过模态匹配和动态降采样等技术，用更简单的配置（如随机时长模型）实现比复杂方法更好的识别效果，并证明了增大编码器、缩小解码器也能达到甚至超越传统大解码器架构的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.14001

arXiv 提交日期: 2026-04-15

natural language processing audio model training speech recognition diffusion language models asr rescoring ctc decoding joint decoding

用于语音识别的扩散语言模型 / Diffusion Language Models for Speech Recognition

1️⃣ 一句话总结

这篇论文探索了如何将扩散语言模型应用于语音识别，通过引入新的重打分和联合解码方法，有效结合了模型的强大语言知识与声学信息，显著提升了语音识别的准确率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.10736

arXiv 提交日期: 2026-04-12

audio benchmark natural language processing speech recognition multilingual asr evaluation framework irish language wer analysis

BlasBench：爱尔兰语语音识别的开放基准测试 / BlasBench: An Open Benchmark for Irish Speech Recognition

1️⃣ 一句话总结

这篇论文提出了一个专门用于爱尔兰语语音识别评估的开放基准测试工具BlasBench，它通过引入爱尔兰语特有的文本规范化处理和可复现的评分框架，揭示了现有模型在该语言上的性能差异和跨数据集泛化问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.29892

arXiv 提交日期: 2026-03-31

audio natural language processing benchmark speech recognition speech translation low-resource language dataset northern kurdish

FLEURS-Kobani：扩展FLEURS数据集以支持北库尔德语 / FLEURS-Kobani: Extending the FLEURS Dataset for Northern Kurdish

1️⃣ 一句话总结

本研究通过构建首个公开的北库尔德语语音数据集FLEURS-Kobani，填补了该语言在语音识别和翻译任务上的基准测试空白，并验证了基于Whisper模型的性能表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.17769

arXiv 提交日期: 2026-03-18

audio natural language processing systems speech recognition overlapped speech finite-state automata alignment speaker attribution

使用重排操作对重叠语音进行建模 / Modeling Overlapped Speech with Shuffles

1️⃣ 一句话总结

这篇论文提出了一种利用‘重排’概念和部分有序有限状态自动机的新方法，首次实现了对多人同时说话的重叠录音进行单次对齐和说话人归属转录。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.14779

arXiv 提交日期: 2026-03-16

audio natural language processing data speech recognition low-resource languages dataset creation data preprocessing vietnamese asr

越南语自动语音识别：一项回顾性研究 / Vietnamese Automatic Speech Recognition: A Revisit

1️⃣ 一句话总结

本研究针对越南语等资源稀缺语言，开发了一个通用的数据整合与处理流程，从多个开源渠道构建了一个高质量、带时间戳的500小时语音数据集，为训练和评估先进的语音识别模型奠定了基础。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.10468

arXiv 提交日期: 2026-03-11

audio natural language processing systems speaker diarization speech recognition end-to-end training multi-party speech speech-llm

G-STAR：端到端的全局说话人追踪与属性识别 / G-STAR: End-to-End Global Speaker-Tracking Attributed Recognition

1️⃣ 一句话总结

这篇论文提出了一个名为G-STAR的端到端系统，它结合了时间感知的说话人追踪模块和语音大语言模型转录主干，旨在解决长篇幅、多说话人重叠语音场景下的时间戳标注和跨片段说话人身份一致性识别难题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.19157

1️⃣ 一句话总结

arXiv ID: 2606.03957

1️⃣ 一句话总结

arXiv ID: 2604.27533

1️⃣ 一句话总结

arXiv ID: 2604.26514

1️⃣ 一句话总结

arXiv ID: 2604.14001

1️⃣ 一句话总结

arXiv ID: 2604.10736

1️⃣ 一句话总结

arXiv ID: 2603.29892

1️⃣ 一句话总结

arXiv ID: 2603.17769

1️⃣ 一句话总结

arXiv ID: 2603.14779

1️⃣ 一句话总结

arXiv ID: 2603.10468

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.19157 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.03957 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.27533 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.26514 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.14001 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.10736 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.29892 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.17769 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.14779 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.10468 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.19157

arXiv ID: 2606.03957

arXiv ID: 2604.27533

arXiv ID: 2604.26514

arXiv ID: 2604.14001

arXiv ID: 2604.10736

arXiv ID: 2603.29892

arXiv ID: 2603.17769

arXiv ID: 2603.14779

arXiv ID: 2603.10468