隐藏式字幕是一种有效的技术,可在演示和现场活动中提升可访问性、参与度和信息保留。再加上视频流媒体领域的观看习惯变化,最近加速了 AI 驱动字幕在现场活动和商务会议中的采用。.
但当涉及为您自己的会议或活动选择供应商时,最常被问到的问题是:自动实时字幕的准确度如何?
简要回答是,在理想条件下,口语语言的自动字幕可实现高达98%的准确率,依据词错误率(WER)评估。.
是的,那里'有一个更长、稍微更复杂的答案。在本文中,我们想为您概述如何衡量准确性、哪些因素影响准确性,以及如何将准确性提升到新的高度。.
在本文中
在深入数字之前,让我们退一步,看看自动字幕是如何工作的。.
自动字幕工作原理
自动字幕
自动字幕将语音实时转换为文本,并以与语音相同的语言显示在屏幕上。ASR(自动语音识别)是一种用于生成这些口语转录本的人工智能技术。
该技术通常被称为 "语音转文本",用于自动识别音频中的词语并将语音转录为文本。
AI 翻译字幕
AI 驱动的翻译引擎会自动翻译以不同语言出现的字幕。这也被称为机器翻译字幕或机器翻译字幕。.
推荐文章
为什么您应该考虑在下一个活动中添加实时字幕
在本文中,我们讨论自动字幕。如果您想了解 AI 翻译字幕的准确性,请查看 这篇文章.
什么被视为良好的字幕质量?
美国联邦通信委员会(FCC)于 2014 年确立了关键特征,以确定字幕是否为 "优秀":
- 准确性 -字幕必须尽可能完整地匹配口语
- 完整性 - 字幕从广播的开始一直持续到结束,尽可能完整。
- 位置 - 字幕不会遮挡重要的视觉内容,且易于阅读。
- 同步 - 字幕与音轨对齐,并以可读的速度出现。

图片:网络研讨会期间的 AI 翻译实时字幕
哪些因素会影响准确性?
所选的 AI 引擎
并非所有语音转文字引擎都产生相同的结果。有些在整体上表现更好,而另一些在特定语言上表现更佳。即使使用相同的引擎,结果也会因口音、噪音水平、主题等因素而有很大差异。.
这就是为什么,在 Interprefy,我们始终对顶级引擎进行基准测试,以确定哪些能够产生最准确的结果。因此,Interprefy 能为用户提供针对特定语言的最佳解决方案,考虑诸如延迟和成本等因素。在理想设置下,我们已看到多种语言的准确率稳定达到 98%。.
音频输入质量
高质量的输入是自动语音识别技术产生高质量输出的前提。它'很简单:音频和语音的质量与清晰度越高,结果就越好。.
- 音频质量 - 类似于 会议口译,糟糕的音频输入硬件,例如内置电脑麦克风,可能会产生负面影响。
- 清晰的语音 & 发音 - 演讲者大声、节奏适中且清晰地讲话, 通常会以更高的准确率生成字幕.
- 背景噪音 - 强烈的隆隆声、狗叫声或纸张翻动声被麦克风拾取,会严重降低音频输入质量。
- 口音 - 具有不寻常或强烈口音的说话者以及非母语者会给许多语音识别系统带来问题。
- 重叠发言 - 如果两个人相互交谈,系统将很难正确识别出正确的发言者。
推荐文章
Zoom、Teams 和 Interprefy 的字幕准确度如何?
如何衡量自动字幕的准确性
衡量ASR准确性的最常用指标是词错误率(WER),它将说话者的实际转录文本与ASR输出的结果进行比较。.
例如,如果100个词中有4个错误,准确率将是96%。.
了解词错误率(WER)
WER 确定由语音识别系统生成的转录文本与由人工(真实情况)生成的参考转录之间的最短距离。.
WER 在词级别上对正确识别的词序列进行对齐,然后计算完全对齐参考文本和转录文本所需的纠正总数(替换、删除和插入)。随后,WER 按所需调整次数与参考文本中词总数的比例计算。较低的 WER 通常表明语音识别系统更为准确。.
词错误率示例:准确率 91.7%
让我们举一个词错误率为 8.3% - 或 91.7% 准确率的例子,并比较演讲原始稿本与 ASR 创建的字幕之间的差异:
| 原始文字稿: | ASR字幕输出: |
| 例如,我 确实 只在非常有限的情况下使用 基本要素 提供 我想更详细地讨论一个特定点 我担心 我呼吁 在各州议会批准公约之前,只有在欧洲法院的角色得到澄清后,才可能产生非常有害的影响。 | 例如,我 也会 仅仅对...进行非常有限的使用 豁免 前提是我想更详细地阐述一个特定点,我担心 该 呼吁 对各个州议会的呼吁,以在欧洲法院的角色得到澄清之后才批准该公约,可能会产生非常不利的影响。 |
在此示例中,字幕漏掉了一个词并替换了四个词:
- 度量: {'matches': 55, 'deletions': 1, 'insertions': 0, 'substitutions': 4}
- 替换:[('too', 'do'), ('use', 'used'), ('exemptions', 'essentials'), ('the', 'i')]
- 删除: ['would']
因此,词错误率的计算方式为:
WER = (删除 + 替换 + 插入) / (删除 + 替换 + 匹配) = (1 + 4 + 0) / (1 + 4 + 55) = 0.083
WER忽视了错误的本质
现在在上述示例中,并非所有错误的影响程度相同。.
WER 测量可能具有误导性,因为它未告知我们某个错误的相关性/重要性。诸如同一单词的不同拼写(movable/moveable)等简单错误,读者往往不视为错误,而替换(exemptions/essentials)可能产生更大的影响。.
WER 数值,尤其是针对高精度语音识别系统,可能具有误导性,并不总是与人类对正确性的感知相符。 对于人类而言,90% 到 99% 之间的准确度差异往往难以辨别。
感知词错误率
Interprefy 已开发出一种专有且针对特定语言的 ASR 错误度量,称为感知词错误率(Perceived WER)。该度量仅统计影响人类对语音理解的错误,而不是所有错误。感知错误率通常低于词错误率(WER),有时甚至低至 50%。感知词错误率为 5-8% 时,用户几乎察觉不到。.
下图展示了在高精度 ASR 系统中,WER 与感知 WER 之间的差异。请注意同一语言的不同数据集(S0-S4)在性能上的差异。.
如图所示,人工感知的词错误率通常明显优于统计词错误率。.

下图说明了在使用感知 WER 时,不同 ASR 系统在同一语言的相同语音数据集上的准确率差异。.

为您的现场活动提供极其精确的闭合字幕
我们已经看到我们的自动字幕准确率达到97%,这归功于我们独特技术方案的结合以及我们对客户的细致关怀。Alexander Davydov,Interprefy的AI交付主管
如果您'正在寻找在活动期间拥有高度准确的自动字幕,有三件关键事项需要考虑:
使用业界领先的解决方案
与其选择任何开箱即用的引擎来覆盖所有语言,不如选择一个在您的活动中为每种语言使用最佳可用引擎的供应商。.
想了解最佳引擎能为您提供什么吗?阅读我们的文章: 实时字幕的未来:Interprefy AI 如何推动可访问性
优化引擎
选择能够为 AI 补充定制词典的供应商,以确保品牌名称、特殊名称和缩写能够被恰当地捕获。.
确保高质量音频输入
如果音频输入质量差,ASR 系统将无法实现输出质量。请确保语音能够被清晰且响亮地捕获。.



更多下载链接



