arXiv最新AI论文速览速学

🔍

标签: #speaker diarization ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 100 72小时内新更新论文 72h更新 100 最新: G-STAR: End-to-End Global Speaker-Tracking Attributed Recognition 03-12

arXiv ID: 2603.10468

arXiv 提交日期: 2026-03-11

audio natural language processing systems speaker diarization speech recognition end-to-end training multi-party speech speech-llm

G-STAR：端到端的全局说话人追踪与属性识别 / G-STAR: End-to-End Global Speaker-Tracking Attributed Recognition

1️⃣ 一句话总结

这篇论文提出了一个名为G-STAR的端到端系统，它结合了时间感知的说话人追踪模块和语音大语言模型转录主干，旨在解决长篇幅、多说话人重叠语音场景下的时间戳标注和跨片段说话人身份一致性识别难题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.03158

arXiv 提交日期: 2026-03-03

audio natural language processing systems speech recognition speaker diarization low-resource languages whisper model voice activity detection

孟加拉语长篇幅语音转录与说话人日志化的多种方法研究 / An Investigation Into Various Approaches For Bengali Long-Form Speech Transcription and Bengali Speaker Diarization

1️⃣ 一句话总结

本研究针对孟加拉语这一低资源语言，通过结合微调Whisper模型进行语音转录和集成pyannote模型进行说话人分离的多阶段方法，有效解决了长达一小时的录音中‘谁在何时说了什么’的难题，显著提升了相关AI任务的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.19194

arXiv 提交日期: 2026-01-27

audio natural language processing systems speaker diarization speech recognition multi-speaker asr cross-attention model conditioning

SE-DiCoW：自注册的说话人分割条件化Whisper模型 / SE-DiCoW: Self-Enrolled Diarization-Conditioned Whisper

1️⃣ 一句话总结

本文提出了一种改进的语音识别方法，通过自动选取对话中说话人最活跃的片段作为固定参考，有效解决了多人重叠说话时身份混淆的问题，从而在多语言、多场景的语音转写任务中大幅提升了准确率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.18184

arXiv 提交日期: 2026-01-26

audio natural language processing systems speech recognition speaker diarization multilingual asr end-to-end long-form audio

VIBEVOICE-ASR技术报告 / VIBEVOICE-ASR Technical Report

1️⃣ 一句话总结

这篇论文提出了一个名为VibeVoice-ASR的通用语音理解框架，它能够一次性处理长达60分钟的音频，将语音识别、说话人分离和时间戳生成整合成一个任务，支持多种语言和混合语言场景，并能通过用户提供的提示信息来提高专业术语和歧义词汇的识别准确率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.17640

arXiv 提交日期: 2026-01-25

audio natural language processing systems speech recognition speaker diarization end-to-end model whisper architecture child-adult interaction

面向儿童-成人交互的端到端联合语音识别与说话人角色划分 / End-to-End Joint ASR and Speaker Role Diarization with Child-Adult Interactions

1️⃣ 一句话总结

这篇论文提出了一种端到端的统一模型，能够同时完成语音识别和区分儿童与成人说话者的任务，相比传统串联式方法，它能减少错误传播，更高效、准确地生成带说话人标签的对话文本。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.01554

arXiv 提交日期: 2026-01-04

natural language processing audio multi-modal speaker diarization speech transcription multimodal llm end-to-end meeting transcription

MOSS转录与说话人分离：具备说话人归属和时间戳的精准转录 / MOSS Transcribe Diarize: Accurate Transcription with Speaker Diarization

1️⃣ 一句话总结

这篇论文提出了一个名为MOSS Transcribe Diarize的端到端多模态大语言模型，它能够同时、准确地识别会议等场景中谁在何时说了什么，并且在多项测试中超越了当前最先进的商业系统。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.10468

1️⃣ 一句话总结

arXiv ID: 2603.03158

1️⃣ 一句话总结

arXiv ID: 2601.19194

1️⃣ 一句话总结

arXiv ID: 2601.18184

1️⃣ 一句话总结

arXiv ID: 2601.17640

1️⃣ 一句话总结

arXiv ID: 2601.01554

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.10468 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.03158 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.19194 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.18184 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.17640 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.01554 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.10468

arXiv ID: 2603.03158

arXiv ID: 2601.19194

arXiv ID: 2601.18184

arXiv ID: 2601.17640

arXiv ID: 2601.01554