← 返回列表

🤖 系统

📄 Abstract

⏳ 正在获取摘要...

顶级标签: audio

📄 论文总结

中英文论文题目：
REINA: Regularized Entropy INformation Adaptation for Simultaneous Speech Translation
REINA：基于正则化熵信息自适应的同步语音翻译方法

1️⃣ 一句话总结

本文提出了一种新型损失函数 REINA（正则化熵信息自适应），通过互信息理论动态优化同步语音翻译（SimulST）中的 READ/WRITE策略，在仅使用开源数据的情况下实现 延迟与翻译质量的更好权衡，并在多语言任务上达到SOTA性能，同时提出公平评估流式性能的新指标 NoSE。

2️⃣ 论文创新点

1. REINA损失函数：基于互信息的策略优化

创新点：利用非流式翻译模型的概率分布近似互信息，动态决定何时读取新音频（READ）或生成翻译（WRITE），直接优化延迟与质量的权衡。
改进：相比传统强化学习或动态规划方法（如DiG-SST），REINA通过信息增益阈值（公式1-2）避免计算不稳定问题，且无需依赖教师模型。
意义：首次将信息论原理应用于SimulST策略学习，实现更高效、稳定的训练。

2. 轻量级策略网络与三阶段训练

创新点：设计仅6M参数的轻量级Transformer策略网络，分三阶段训练（非流式模型→截断音频适应→流式策略学习）。
改进：相比复杂流式架构（如EMMA），REINAStream通过单调性约束（(L_m)）和协方差最大化优化，显著降低计算成本。
意义：为工业界提供可部署的高效流式方案，训练成本仅为Seamless的1/3。

3. NoSE指标：公平评估流式性能

创新点：提出 NoSE（Normalized Streaming Efficiency），将流式翻译质量归一化为非流式模型的性能，消除模型能力差异对策略评估的干扰。
改进：传统指标（如BLEU+AL）无法区分策略优劣与模型本身能力，NoSE首次实现跨模型的公平对比。
意义：为SimulST研究建立标准化评估基准。

4. 数据高效的多任务训练框架

创新点：联合训练ASR、NMT、S2TT任务（损失函数混合：(L = L_{asr} + L_{nmt} + L_{s2tt})），利用开源数据（如MLS、CCMatrix）弥补平行语料稀缺问题。
改进：现有方法依赖合成数据或私有数据集，而REINA仅用公开数据达到可比性能。
意义：降低学术界与工业界的资源差距，推动可复现研究。

3️⃣ 主要结果与价值

实验结果亮点

性能：在MUST-C和CVSS-C数据集上，REINA相比DiG-SST降低19%延迟（AL），BLEU提升2.1-3.4分，NoSE分数提高15%。
效率：策略网络推理速度比EMMA快3倍，显存占用减少40%。
多语言扩展：支持8种语言对（en↔de/es/fr等），在短音频（CVSS-C对话场景）中表现尤其突出。

实际应用价值

实时翻译系统：适用于视频会议、直播字幕等低延迟场景，平衡质量与响应速度。
跨领域泛化：方法可扩展至语音到语音翻译（SimulS2ST），如论文附录提到的未来方向。
开源贡献：提供训练代码与模型权重，推动社区发展。

4️⃣ 术语表

SimulST（Simultaneous Speech Translation）：同步语音翻译，实时将语音流转换为目标语言文本。
REINA（Regularized Entropy INformation Adaptation）：核心损失函数，通过互信息优化READ/WRITE策略。
NoSE（Normalized Streaming Efficiency）：归一化流式效率指标，公平比较不同模型的流式性能。
DiG-SST（Divergence-Guided SimulST）：基于输出分布差异的流式策略，REINA的对比基线之一。
EMMA（Efficient Monotonic Multihead Attention）：因计算复杂被弃用的流式注意力机制。
Whisper Medium：用作声学编码器的预训练模型（Radford et al. 2023）。

📄 打开原文 PDF