人工智能翻译的字幕准确率如何？

作者：帕特里夏·马加兹| 2023年5月3日

媒体消费行为的根本性转变，加上人工智能技术的飞速发展，使得人工智能翻译字幕成为各种规模和类型的现场活动的热门且强大的选择。Interprefy 于 2022 年推出了这项技术，目前 Microsoft Teams 甚至 Zoom 也提供该功能：为实时会议自动生成多语言字幕。这项技术使即使不懂讲话语言也能理解内容

但它们的准确度究竟如何？这个问题没有简单的答案。结果很大程度上取决于所选方法和使用的引擎、具体的语言组合，以及音频的特性（例如说话者的口音、音频质量等）。而事实是，目前还没有衡量翻译准确度的确定方法。

翻译行业人士对翻译质量的描述各有不同。在试图找到一个客观的衡量标准时，一组研究人员承认，他们甚至无法就“翻译质量”的定义达成一致。

让我们仔细看看为什么翻译质量如此难以衡量，以及我们如何才能更接近衡量机器翻译字幕的质量。

多语言自动字幕的工作原理

“自动翻译”、“机器翻译”和“AI翻译”字幕或“多语言字幕”是指为用户提供实时字幕的隐藏式字幕，字幕内容与语音同步显示。这些字幕的生成方式有两种：一种是结合自动语音识别和机器翻译技术，生成翻译后的文本；另一种是基于人工智能的解决方案，直接将源语言的音频转换为目标语言的文本（甚至语音）。

衡量翻译质量

语言极其复杂，因此翻译质量往往带有主观性。人们可能会认为质量问题源于译员或机器的失误。然而，更常见的情况是，人们眼中的翻译质量问题实际上是一种主观评价。

多维质量指标（MQM）框架项目，提供了一种“功能主义”方法，对质量问题进行分类：

准确性
风格
流利度
区域设置惯例
术语等

因此，各组织通常会向译员提供风格指南、术语表，理想情况下甚至会建立翻译记忆库，以确保翻译作品的一致性，满足自身需求。

衡量翻译质量的关键在于评估翻译的实用性以及它与目标的契合程度。

实时字幕的机器翻译质量

机器翻译已经存在超过60年，如今机器与人类已经并存。但近二十年来，由于机器翻译质量的快速提升，语言服务提供商（LSP）、翻译机构和自由译员纷纷采用机器翻译来提高效率并降低成本。

并非所有机器翻译引擎都一样。

如今，市面上有很多文本翻译引擎可供选择，例如谷歌翻译、DeepL翻译和微软翻译，此外还有几种类型的机器翻译：基于规则的、统计的、自适应的和神经机器翻译。大多数服务已经开始转向最后一种类型，因为神经机器翻译已被证明能够产生极其令人满意的结果，并能快速弥合某些类型文本中人与机器之间的差距。

不同的翻译引擎和不同类型的机器翻译会产生不同的结果。一个引擎可能对某种语言组合表现出色，但对其他语言组合却毫无用处。

实时编辑与后期编辑的要求

由于大多数书面翻译无需立即定稿，网站或文档的机器翻译输出在发布前通常会由专业译员进行审核和后期编辑。因此，拥有最好的翻译引擎固然能节省大量时间，但并非必要条件。

然而，实时多语种字幕需要实时提供，在用户阅读之前不允许人为干预。

因此，使用性能最佳的引擎和引擎组合，并确保音频输入质量达到最佳状态至关重要。例如，如果说话者口音很重，且使用的麦克风质量很差，即使是最好的解决方案也可能无法生成效果出色的多语言字幕。

Interprefy 的方法：对解决方案进行基准测试并优化输入音频

Interprefy 的 AI 交付团队并没有使用单一的机器翻译引擎，而是不断地对领先的翻译解决方案以及语音识别和机器翻译解决方案的组合进行基准测试，以用于特定的语言组合。

我们与世界领先的研究机构合作，开发并持续改进专有的实时多语种字幕自动基准测试流程。——Interprefy人工智能交付主管Alexander Davydov

“我们使用大量不同的音频数据，并将各种翻译系统及其组合的输出结果与专业翻译人员生成的翻译进行比较，验证这些翻译结果，并按准确性对其进行排名，”亚历山大解释说。

下图展示了从同一种源语言翻译成四种不同语言的基准测试结果。可以看出，没有一种单一的解决方案能够为所有四种语言对提供始终如一的翻译质量。

即使你拥有最先进的解决方案，如果输入质量低，质量仍然会受到影响。

音质是影响人工智能输出质量的关键因素，它不仅关系到译员的健康和工作能力，还关系到听众的理解和参与度。因此，Interprefy 一直致力于提升音频质量，为活动组织者和演讲者提供实用指南音质测试工具甚至还开发了音频增强工具Interprefy Clarifier。

此外，我们的专家团队会与客户合作，优化系统，确保品牌名称、缩写等信息准确无误。

查看完整帖子