arXiv ID:
2604.27279
基于三秒音频预测即将发生的口吃事件:分层评估揭示严重程度选择性前兆,模型完全部署于设备端 / Predicting Upcoming Stuttering Events from Three-Second Audio: Stratified Evaluation Reveals Severity-Selective Precursors, and the Model Deploys Fully On-Device
1️⃣ 一句话总结
本文首次实现了一种轻量级的音频模型(61.6万参数),能够仅凭3秒的语音片段预测接下来是否会发生口吃(尤其是重度口吃,如声音重复或言语阻塞),该模型准确率达到0.60以上的AUC,且可直接在手机等设备上以极低延迟(0.25-0.55毫秒)运行,无需联网或远程处理。