arXiv最新AI论文速览速学

🔍

标签: #speech understanding ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 50 72小时内新更新论文 72h更新 50 最新: A Unified and Reproducible Experimentation Framework for Speech Understanding 06-01

arXiv ID: 2605.30899

arXiv 提交日期: 2026-05-29

audio model evaluation machine learning speech understanding benchmarking reproducibility training pipeline evaluation framework

语音理解领域统一且可复现的实验框架 / A Unified and Reproducible Experimentation Framework for Speech Understanding

1️⃣ 一句话总结

该论文提出了一个名为SURE的统一实验框架，通过标准化预测格式、后处理流程和评估方法，解决了语音理解模型在部署时因评估标准不统一导致难以比较和复现的问题，同时该框架还引入了智能辅助的训练流程转换功能，帮助将论文代码转化为统一、可复现的训练管道。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.18904

arXiv 提交日期: 2026-01-26

llm audio model training in-context learning speech understanding low-resource adaptation multimodal llm post-training

SICL-AT：一种将听觉大语言模型适配于低资源任务的新方法 / SICL-AT: Another way to adapt Auditory LLM to low-resource task

1️⃣ 一句话总结

本文提出了一种名为SICL-AT的后训练方法，它仅需利用高资源语音数据来增强听觉大语言模型的上下文学习能力，从而使其在数据稀缺或分布不匹配的低资源音频理解任务中，表现优于直接微调。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.02231

arXiv 提交日期: 2025-12-01

multi-modal llm benchmark audiovisual reasoning speech understanding multimodal evaluation video question answering speaker identification

看、听、懂：评测多模态大语言模型中对人类语音的视听理解能力 / See, Hear, and Understand: Benchmarking Audiovisual Human Speech Understanding in Multimodal Large Language Models

1️⃣ 一句话总结

这篇论文提出了一个名为AV-SpeakerBench的新评测基准，专门用于严格评估多模态大模型在真实视频中，能否将说话人、说话内容和说话时间精准关联起来进行细粒度推理，并发现现有模型在此任务上仍有明显不足。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2605.30899

1️⃣ 一句话总结

arXiv ID: 2601.18904

1️⃣ 一句话总结

arXiv ID: 2512.02231

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2605.30899 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.18904 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.02231 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2605.30899

arXiv ID: 2601.18904

arXiv ID: 2512.02231