阅读时间：9分钟

了解人工智能字幕的准确性：一份全面的指南

作者： Markus Aregger，发表于2023年4月13日

主题：实时字幕

AI字幕准确性

了解人工智能字幕的准确性：一份全面的指南

9:40

在演示和现场活动中，字幕是一种提高可及性、参与度和信息保留率的有效方法。此外，随着视频流媒体领域视频消费习惯的转变，人工智能字幕技术在现场活动和商务会议中的应用也日益普及。

但是，在为自己的会议或活动选择服务提供商时，最常被问到的问题是：自动实时字幕的准确性如何？

简而言之，在理想条件下，语音语言的自动字幕准确率可达 98%（以词错误率 (WER) 衡量）。

是的，这个问题的答案比较复杂，也比较冗长。在本文中，我们将概述如何衡量准确度、哪些因素会影响准确度，以及如何进一步提高准确度。

在本文中

自动字幕的工作原理
什么样的字幕质量才算好？
影响准确率的因素有哪些？
衡量自动字幕的准确性
了解词错误率（WER）
为您的现场活动提供极其精准的隐藏式字幕

在深入探讨具体数字之前，让我们先退一步，看看自动字幕是如何工作的。

自动字幕的工作原理

自动字幕

自动字幕可以将语音实时转换为文本，并以与语音相同的语言显示在屏幕上。自动语音识别（ASR）是一种人工智能技术，用于生成口语句子的文本转录。

这项技术通常被称为“语音转文本”，用于自动识别音频中的单词并将语音转录成文本。

人工智能翻译字幕

人工智能翻译引擎可以自动翻译以其他语言显示的字幕。这也被称为机器翻译字幕或机器翻译标题。

推荐文章

为什么你应该考虑在下次活动中添加实时字幕

阅读文章 →

本文主要介绍自动字幕。如果您想了解人工智能翻译字幕的准确率，请查看这篇文章。

什么样的字幕质量才算好？

美国联邦通信委员会（FCC）于2014年制定了判断字幕是否“优秀”的基本特征：

准确性——字幕必须尽可能与口语完全一致。
完整性——字幕从节目开始到结束，尽可能做到完整呈现。
位置——字幕不会遮挡重要的视觉内容，而且易于阅读。
同步- 字幕与音轨同步，并以易于阅读的速度显示。

on24 实时字幕-分钟

图片：网络研讨会期间的AI实时翻译字幕

影响准确率的因素有哪些？

选定的AI引擎

并非所有语音转文本引擎都能产生完全相同的结果。有些引擎整体表现更佳，而有些则更擅长处理特定语言。即使使用同一引擎，结果也会因口音、噪音水平、话题等因素而存在显著差异。

因此，Interprefy始终对顶级引擎进行基准测试，以确定哪些引擎能够产生最准确的结果。最终，Interprefy能够为用户提供针对特定语言的最佳解决方案，同时兼顾延迟和成本等因素。在理想设置下，我们已观察到多种语言的准确率稳定在98%以上。

音频输入质量

高质量的输入是自动语音识别技术产生高质量输出的必要条件。道理很简单：音频和语音的质量和清晰度越高，识别结果就越好。

音频质量——会议口译类似，糟糕的音频输入硬件（例如内置电脑麦克风）会产生负面影响。
清晰的语音和发音——说话声音洪亮、语速适中、发音清晰的演讲者，通常能获得更准确的字幕。
背景噪音——麦克风拾取到的隆隆声、狗吠声或纸张翻动声会严重降低音频输入质量。
口音——口音特殊或强烈的说话者以及非母语人士给许多语音识别系统带来了问题。
语音重叠——如果两个人同时说话，系统将很难正确识别出说话者。

推荐文章

Zoom、Teams 和 Interprefy 的字幕准确度如何？

阅读文章 →

如何衡量自动字幕的准确性

衡量 ASR 准确性的最常用指标是词错误率 (WER)，它将说话者的实际转录文本与 ASR 输出结果进行比较。

例如，如果 100 个单词中有 4 个是错误的，那么准确率就是 96%。 

了解词错误率（WER）

WER 确定语音识别系统生成的转录文本与人类生成的参考转录文本（真实文本）之间的最短距离。

词错误率 (WER) 先在词级别对正确识别的词序列进行比对，然后再计算完全比对参考文本和转录文本所需的校正（替换、删除和插入）总数。WER 的计算方法是将所需校正次数与参考文本中的总词数之比。WER 值越低，通常表明语音识别系统的准确率越高。

词错误率示例：准确率 91.7%

让我们以 8.3% 的单词错误率（或 91.7% 的准确率）为例，比较一下原始语音转录文本和 ASR 生成的字幕之间的差异：

原文：	ASR字幕输出：
例如，我希望只在非常有限的情况下使用基本要素。如果我想更详细地讨论某一点，我担心呼吁各个国家议会在欧洲法院的作用得到澄清之后才批准该公约可能会产生非常不利的影响。	例如，我也希望对豁免条款。我想更详细地谈谈一点：我担心，要求各个国家议会在欧洲法院的作用得到明确之后才批准该公约，可能会产生非常不利的影响。

在这个例子中，字幕漏掉了一个词，并用四个词代替了：

指标：{'匹配数': 55, '删除数': 1, '插入数': 0, '替换数': 4}
替换项：[('too', 'do'), ('use', 'used'), ('exemptions', 'essentials'), ('the', 'i')]
删除：['would']

因此，单词错误率的计算方法如下：

WER = (删除数 + 替换数 + 插入数) / (删除数 + 替换数 + 匹配数) = (1 + 4 + 0) / (1 + 4 + 55) = 0.083

WER忽略了错误的本质。

现在，以上面的例子为例，并非所有错误的影响都相同。

词错误率 (WER) 指标可能会产生误导，因为它无法告诉我们某个错误的重要性。例如，简单的拼写错误，比如同一个词的不同拼写（movable/moveable），通常不会被读者视为错误，而替换错误（exemptions/essentials）则可能影响更大。

词错误率（WER）数值，尤其对于高精度语音识别系统而言，可能会产生误导，并且并不总是与人类对正确性的感知相符。对人类来说，90% 和 99% 之间的准确率差异往往难以区分。

感知词错误率

Interprefy 开发了一种专有的、针对特定语言的自动语音识别 (ASR) 错误指标，称为感知词错误率 (Perceived WER)。该指标仅统计影响人类理解语音的错误，而非所有错误。感知错误率通常低于词错误率 (WER)，有时甚至低至 50%。5-8% 的感知词错误率通常几乎不会被用户察觉。

下图展示了高精度自动语音识别系统 (ASR) 的词错误率 (WER) 和感知词错误率 (Perceived WER) 之间的差异。请注意同一语言的不同数据集 (S0-S4) 的性能差异。

如图所示，人类感知到的 WER 通常比统计 WER 要好得多。

图表、柱状图描述自动生成

下图展示了使用感知词错误率 (WER) 对同一语言的同一语音数据集进行处理时，各种 ASR 系统之间的准确率差异。 

图表描述自动生成

为您的现场活动提供极其精准的隐藏式字幕

得益于我们独特的技术解决方案和对客户的悉心服务，我们的自动字幕准确率达到了97%。——Interprefy人工智能交付主管Alexander Davydov

如果您希望在活动期间获得高度准确的自动字幕，则应考虑以下三个关键事项：

使用一流的解决方案

与其选择任何现成的引擎来涵盖所有语言，不如选择一个供应商，该供应商会针对您活动中的每种语言使用最佳的可用引擎。

想了解最佳引擎能为您带来什么？请阅读我们的文章：《实时字幕的未来：Interprefy AI 如何助力无障碍访问》。

优化引擎

选择能够为 AI 提供定制词典的供应商，以确保品牌名称、特殊名称和缩写词都能被正确识别。

确保高质量的音频输入

如果音频输入质量差，ASR系统将无法达到理想的输出质量。请确保语音能够被清晰响亮地采集下来。

优秀的自动字幕

想自行开展AI字幕质量评估吗？

立即联系我们申请演示。

马库斯·阿雷格尔

作者：马库斯·阿雷格

Interprefy市场营销主管