<img src="https://ws.zoominfo.com/pixel/ODemgiDEhQshzjvCQ1qL" width="1" height="1" style="display: none;">

隆重推出 Interprefy Agent。这是一款功能强大的多语言助手,您只需像邀请客人一样邀请它即可。开启无缝多语言访问体验。

阅读时间:9分钟

音频工程师理查德·席勒揭秘RSI中的音频压缩

作者: Dora Murgu ,2022 年 8 月 16 日

主题: 远程同声传译
远程口译的音质

我们已将本文上传至我们的 Interprefied 播客,您现在可以在您选择的播客目录中找到它。

请收听并下载以下播客:

 

 

可从以下网址下载:

Interprefy播客 Interprefy播客 Interprefy播客

 

音质与我们形影不离。从清晨收听广播到深夜追看新剧,良好的音质往往被我们视为理所当然。虽然通常很容易辨别糟糕的音质,但好的音质实际上却是一个相当复杂的问题。一个很好的例子是,十年前黑胶唱片爱好者和其他音响发烧友之间就CD和黑胶唱片哪种格式的音质更胜一筹展开的争论。

在远程口译中,能够接收和发送高质量的音频至关重要。这既能确保信息准确处理,又能提供愉悦的音频体验,同时还能保护人们的听力。

作为一家以音频为先的平台,我们不断探索影响说话者行为,并实施创新的音频解决方案,以确保卓越的音质。声音压缩是一个经常被讨论的话题,如果运用得当,它确实可以显著提升听觉体验。

Interprefy 的音频工程师兼高级产品经理 Richard Schiller坐下来,了解什么是声音压缩,它在 RSI 中是如何使用的,以及什么会影响音质。

你好,理查德,请简单介绍一下你的背景和工作内容。

嗨,朵拉,很高兴再次和你聊天。我在Interprefy担任高级产品经理,负责产品的方向和细节。我同时也是一名受过专业训练的音频工程师。我最初在世界上最大的广播机构——BBC世界广播服务公司工作。那段经历让我对清晰度和一致性格外关注。

保持内容的一致性是广播节目大规模成功的关键,而清晰明了则是我们所传递内容的精髓。我还从事过音乐录制和电视行业,担任过该行业的大部分职务,包括制片人、导演、主持人以及编剧。

那么,你就是回答这个价值百万美元的问题的最佳人选:什么是压缩?

在音频领域,有两种截然不同且互不相关的技术都被称为“压缩”:最初是动态压缩,它是一种电路(现在通常用算法)来自动控制音量。其主要用途是缩小动态范围——即最轻柔声音和最响亮声音之间的差异。后来出现了比特率降低技术,它是一种减少必须存储或传输的音频数据量的系统。


动态压缩和比特率降低技术可以运用得当,也可以运用不当。


所以,它们是好是坏?

都不是。就像几乎所有事物一样,这两种技术都有好用和不好用的时候。如果用得不好,那当然不好,但就压缩方式本身而言,并没有什么本质区别。

动态压缩本质上就像一个设备,它会监测音量大小,并在音频过大时自动调低音量旋钮,然后在音频变小时再次调高音量。这有助于人们清晰地听到音量大小不同的段落。这与人手调节音量旋钮的原理并无本质区别——我强调,动态压缩的目的就是降低音量,这也是它名称的由来。

那么,人们对压缩问题的担忧从何而来呢?

动态压缩会使声音变小,这通常不是我们想要的效果,所以通常会有一个预设的音量控制来再次提高音量。由于压缩会均衡信号的电平,因此你可以选择两种方式:要么设置得更安静但更容易听清,要么设置得更响亮但更引人注目。我想先插一句,强调一点:如果你觉得声音太大,就调低它。始终要掌控自己的聆听音量。

不仅仅是压缩级别可能出错,压缩器的时间常数也很重要。最后,还有压缩比。压缩比经常被设置得过高,这是导致语音压缩后难以理解的最常见原因。

最令人恼火的应用之一是老式消费电子设备和某些个人电脑算法中设计不佳的自动增益控制 (AGC) 电路。笔记本电脑和其他设备通常默认开启 AGC 和噪声门。因此,动态范围在我们生活中无处不在。设置不当的压缩会削波爆破音和咝音,使语音难以理解。你可以听出单词开头的辅音听起来很沉闷,尤其是在句子的第一个词。AGC 设置不当的另一个表现是,当有人说一个响亮的词,然后紧接着说一个轻柔的词时,你能听到轻柔词的结尾,但很难听清它的开头。

我们来谈谈重复性劳损。音乐的音质与语音的音质有何不同?

很多方面都有共通之处,但在每种情况下,你都必须仔细理解“好”的定义。人们常常把在声学处理过的录音棚里录制的古典音乐的数据套用到语音上。在某些方面,语音比管弦乐队更容易,而在另一些方面,语音则更难。

例如,带宽的上限对于人声来说不如对某些乐器那么重要。可以说,对于某些打击乐器来说,带宽至关重要,而对于人声来说,平滑度才是关键。这就是为什么录音工程师会为人声、小军鼓或钹使用不同的麦克风。

我知道有些人会反驳说18kHz到20kHz之间的频率对人声至关重要,但事实并非如此。通常来说,录音工程师用于录制人声的顶级、最昂贵的麦克风在这些频率上的表现都不理想,因为它们根本不需要具备这样的性能。

这并非偶然。假设你身处森林,聆听几米外一个人说话,他的嘴正对着你的耳朵(而且你还年轻,能听到20kHz的频率)。如果你转过脸去看说话的人,而他侧过身去,你就听不到20kHz的频率成分了,或者至少会大大减弱。这些极高的频率在自然界中保存得并不完好,因此对我们来说并不重要,因为如果它们很重要,生命就无法存在了。


实现清晰的表达远比人们通常认为的要复杂得多。


那么,为了进行同声传译,是否必须能够获取高达 15,000 赫兹的频率呢?

这里的问题在于,我可能会听起来像是在说次优就足够了,但事实是,实现清晰度远比人们通常认为的要复杂得多。就同等条件而言,15kHz 的带宽比 10kHz 的带宽更适合语音,10kHz 的带宽又比 6kHz 的带宽更好,以此类推。

然而,相比于频率响应在 15kHz 时出现的不规则波动,频率响应在 10kHz 以内较为平坦(平滑)的语音更有利于理解。同样,带宽为 6kHz 且动态压缩程度较低的语音,也比带宽为 15kHz 但压缩效果糟糕的语音更容易理解。

这一切意味着,保持频率响应固然重要,但其他因素也同样重要,而且任何单一因素都无法使产品达到完美。频率响应的特殊问题在于,随着频率的升高,其增益会显著降低。因此,我们之所以如此关注高频段,是因为我们更容易理解和描述它,而不是因为它在价值链中的真实地位。

15kHz 或更高的带宽是良好性能的整体方案的一部分,但从字面上讲,它既不是良好、易于理解的必要条件,也不能保证良好、易于理解。

有说法称,RSI平台会应用动态范围压缩,导致音质变差。Interprefy平台也存在这种情况吗?

不,一般情况下不需要动态范围压缩。但这并不意味着我们从来不用它。我们实验室目前正在研发一种非常令人兴奋的压缩技术。它是为听众设计的,无论是观众、代表还是翻译。每个人都可以根据自己的需要开启或关闭这项功能。 

卓越源于在正确的地点以正确的方式应用技术。它关乎调整,在每个步骤中追求完美,并在整个系统中应用微小的渐进式改进。

让我们来谈谈代表们吧,因为我们都曾有过这样的经历:演讲者的声音听起来糟透了。

是的,没错,朵拉。我非常热衷于解决这个问题。真正的大问题是很多演讲者使用的设备非常差,而且他们缺乏确保音质所需的知识。

我们该如何解决这个问题?

几乎所有问题都需要从多方面着手解决。我们需要演讲者使用更好的麦克风,需要他们更了解麦克风的使用技巧,并且更加注意背景噪音和回声。这方面有很多教育工作要做,而我们也正是从演讲者规范视频宣传活动

我们还可以利用科技来提供帮助。将来,你我可以再来探讨这个话题,看看科技如何帮助人们提升自身素质,并在他们无法解决问题时提供补偿。


最大的区别在于配置良好的优质设备和配置糟糕的劣质设备。


所以,如果我们比较通过硬件(例如硬控制台)接收到的声音和通过 Interprefy 接收到的声音,只要演讲者使用合适的设备,两者之间就不会有太大区别?

没错,朵拉。关键不在于本地办公和远程办公,而在于配置良好的优质设备和配置不当的劣质设备。就音频质量而言,基于硬件的本地系统并无本质区别。许多使用远程信息处理(RSI)系统的会议和活动参与者,其麦克风质量都优于现场同类设备。当然,也有人希望使用性能较差的设备参与。就像商业中的其他一切一样,远程办公也需要妥善管理。

那么,RSI 与基于硬件的解决方案有什么区别?

远程同声传译(RSI)带来的是选择,是通过灵活性实现的选择。我妻子刚怀孕时,她的雇主(一位男性)直接告诉她,她失去了工作。值得庆幸的是,现在这种做法是违法的。我希望远程同声传译能够让那些不想或不能出差的译员拥有更灵活的工作方式。我不喜欢我妻子遭受的那种不公平待遇,正如我认为雇主应该尽一切努力让员工无论身体状况或生活方式如何都能工作一样,我认为我们这些系统供应商也有责任在系统中融入这种灵活性。

RSI解决方案对企业来说也非常灵活。您可以随时随地召开会议,并即时设置或更改配置。我们最近就帮助一位宇航员在国际空间站与世界进行沟通。当然,坚持让宇航员亲自到场是不现实的。

回到压缩技术的问题上,对于那些要求完全取消压缩技术的人,您有什么想说的?

彻底消除压缩,无论是哪种形式的压缩,都不是万全之策。我再次强调,没有灵丹妙药。整体解决方案的一部分是消除对压缩的不良使用——包括不良的动态压缩和低比特率压缩。这意味着需要行业内拥有真正了解这项技术并对其有深入理解的工程师。

如果连续使用多个压缩函数呢?这样做就一定不好吗?

这被称为级联压缩。不,它并非一定对动态压缩或比特率压缩有害。

级联压缩存在一些特殊问题,在设计解决方案时需要付出大量努力。担心级联压缩是完全合理的,因为它需要投入大量精力才能实现,但如果你技术精湛,就能做到,而且可以做得非常好。以动态压缩为例,音频领域两项最伟大的创新都源于级联动态压缩的应用。

有些人似乎特别擅长评估压缩等因素,你是否应该利用他们的专业知识来帮助你?

评估音频质量只有一种方法,那就是我们所说的盲测。理想情况下,最好是双盲测试。如果有人告诉你他们特别擅长听出音频问题,你应该问问他们是否在盲测中表现出色。盲测是指在一个测试程序中,测试者不知道哪个声音是哪个,并且测试由与评估无关的人员进行。所有测试都应该使用不同背景的听众。

很多人,或许大多数人,都认为自己听力超群,但实际上只有大约五分之一的人听力真的超群。这就好比我们都觉得自己驾驶技术很棒一样。


好的音质需要精心制作和整体运用才能实现。


有些人似乎对音质以及如何获得好音质有非常强烈的个人看法。对此,您有什么建议?

经验告诉我,那些用非此即彼的二元论,用“必须”和“禁止”来评判事物的人,往往是错误的。我不喜欢看到压缩或其他音频工具被错误地贴上负面标签。这并非因为我特别喜欢它,或者我是压缩的拥护者,而是因为好的声音需要精心打磨和整体运用才能获得。真正的完美主义者不会用非黑即白的眼光看待事物,他们会运用所有工具,而不是简单地进行简化。

所有音频处理都可能做得不好,也可能做得好。做得好意味着使用了正确的配置,并将其应用到最需要的地方。动态压缩如果应用不当会非常糟糕,但这并不意味着它完全错误。如果应用得当,它将成为一项强大的工具。

多拉·穆尔古

作者: 朵拉·穆尔

了解 Interprefy 的最新发展动态,请阅读 Interprefy 培训与互动主管 Dora Murgu 的介绍。