我们已将此文章上传至我们的 Interprefied 播客,并已在您首选的播客目录中提供。.
请收听并下载下面的播客:
可供下载于:
音质是伴随我们整天的事物。从早晨打开收音机到深夜狂看新电视剧,良好的音频是我们常常视为理所当然的。虽然它'通常相当容易辨别劣质音频,但优质音频实际上是相当复杂的。一个很好的例子是一场持续了十年的讨论,关于黑胶爱好者和其他发烧友之间哪种格式提供更佳的音质:CD还是黑胶。.
在远程口译中,能够同时接收和发送高质量音频是关键。为了确保信息准确处理并提供安全愉快的音频体验,同时保护人们的听力。.
一个以音频为先的平台,我们不断探索新的方式来 影响演讲者行为,以及实施创新的音频解决方案,以确保卓越的音质。一个经常讨论的话题,声音压缩如果正确应用,真的可以积极提升音频体验。
我们与 Richard Schiller,Interprefy 的音频工程师兼高级产品经理进行交谈,以了解什么是声音压缩,它在 RSI 中的使用方式以及影响声音质量的因素。
你好,Richard,请告诉我们一些关于你的背景以及你从事的工作。.
嗨 Dora, 很高兴再次与你交谈。 我在 Interprefy 的职位是高级产品经理。 我负责产品的方向和细节。 我恰好也是一名受过训练的音响工程师。 我最初在 world’的最大广播语音电台组织,BBC World Service 工作。 那段经历让我对清晰度和一致性极度执着。.
一致性是让广播大规模运作的关键,清晰是我们所交付内容的核心本质。我也曾从事音乐录音和电视工作。我在该行业做过大多数工作,包括制片人、导演、主持人和编剧。.
那么,你就是回答百万美元问题的合适人选:什么是压缩?
在声音领域,有两种不同且无关的概念被称为压缩:最初有动态压缩,它是一种电路,或如今是一种自动控制音量的算法。它主要用于降低动态范围—即最柔和和最响亮声音之间的跨度。随后出现了比特率降低,这是一种用于减少必须存储或传输的音频数据量的系统。.
动态压缩和比特率降低可以被很好地使用,也可以被糟糕地使用。.
那么,它们是好是坏?
两者皆非。几乎所有事物都是如此,这两种技术可以被良好或糟糕地使用。若使用不当,它们并不优秀,但没有任何关于任一压缩形式的说明表明它们本质上是坏的。.
动态压缩本质上就像拥有一个监测音量水平的设备,当音频过大时会调低音量旋钮。音频变得更安静时,它又会调高音量。它帮助人们同等地听清响亮和安静的段落。它实际上与人类调节音量的方式没有区别–我强调,动态压缩是关于降低音量的,因此得名。.
那么,压缩问题的担忧从何而来?
动态压缩会使声音变得更安静,而这通常是不受欢迎的,所以随后会使用预设音量控制将其再次调大。由于压缩会使信号的电平均衡,你可以选择两种方式之一。它可以设置为更安静但更易听见,或者更响亮且更吸引注意。如果我能暂时离开此讨论并提出一个重要观点;如果你觉得声音太大,请调低。始终掌控自己的聆听音量。.
不仅仅是水平可能出错,所谓压缩器的时间常数也很重要。最后,还有比率。它常常被设定得过于激进,这就是压缩导致语音难以理解的最常见原因。.
最令人恼火的应用之一是设计不良的自动增益控制(AGC)电路,既存在于旧的消费设备中,也存在于某些电脑使用的算法中。AGC 和噪声门通常默认在笔记本电脑和其他设备上开启。因此,动态范围始终存在于我们的生活中。设置不当的压缩会削减爆破音和嘶音,使语音难以理解。你会听到这些音在词首的硬辅音上呈现出沉闷的音质,尤其是句子的第一个词。另一个设置不当的 AGC 的表现是,当有人先说一个响亮的词后接一个安静的词时,你能听到安静词的结尾,却很难听清其开头。.
让我们转向RSI。音乐中的音质与语音中的音质有何不同?
有很多是共同的,但在每种情况下,你必须小心地理解什么是好的。人们把在声学处理过的录音室里制作的古典音乐录音中的数值套用到语音上。在某些方面,语音比交响乐更容易,而在另一些方面,它更难。.
例如,带宽的上限对语音的重要性不如对某些乐器重要。有充分的理由认为,对于某些打击乐,带宽是关键,而对语音来说,平滑度更为重要。这就是为什么录音工程师会为人使用不同的麦克风,而不是为小鼓或镲片使用相同的麦克风。.
我知道有些人会大声反驳我,认为18kHz到20kHz之间的频率对语音至关重要,但实际上并非如此。一般来说,录音工程师用于语音的最顶级、最昂贵的麦克风并不擅长这些频率,因为根本不需要它们。.
这并非偶然。假设你在森林里,聆听几米外一个人,嘴巴正对着你的耳朵(而且你足够年轻,仍能听到20kHz的声音)。如果你转过脸去看到说话者,而他们侧过身子,你将不再听到20kHz的成分,或者听得大大减弱。这些极高的频率在自然界中保存得不好,因此对我们并不重要,因为如果它们存在,生活将变得不可能。.
实现清晰度比人们想象的要更为微妙。.
那么,为了同声传译,是否必须能够访问高达15,000 Hz的频率?
这里的挑战在于,我可能听起来像是在说次佳已经足够好,但事实上,这一切的真相是,实现清晰度比人们想要表现的更为微妙。比如说,15kHz的带宽比10kHz的语音更好,后者又比6kHz更好,依此类推。.
然而,直到10kHz的更平坦(更平滑)响应在理解上可能优于对15kHz的起伏响应。同样,使用6kHz带宽且未被严重动态压缩的语音,比带宽为15kHz且压缩糟糕的情况更易于理解。.
这意味着,保持频率响应当然很重要,但其他因素同样重要,且没有任何单一因素能让事情完美。响应的具体问题在于,随着规模的提升,回报显著下降。因此,我们倾向于过度关注更高的频段,这表明我们对其有一定的理解并能轻松描述,而不是反映其在价值链中的真实位置。.
15kHz 或更高的带宽需要作为良好性能整体方案的一部分,但从字面上讲,它既不是对良好、易于理解的必要条件,也不能保证实现。.
有人声称 RSI 平台使用动态范围压缩,导致音质变差。这对 Interprefy 也是真实情况吗?
不。在一般操作中不需要动态范围压缩。那’并不是说我们从未’使用它。我们目前在实验室有一个应用压缩的项目,项目’真的很令人兴奋。它’是为听众设计的,无论是观众、代表还是口译员。每个人如果愿意可以打开它,若不’想则保持关闭。.
卓越源于在正确的地点和正确的方式应用技术。它’是关于调校、在每一步追求完美,并在整个系统中进行小幅度的增量改进。.
Let’s 谈论一下代表们,因为我们都经历过演讲者听起来非常糟糕的情况。.
是的。绝对的多拉。我真的很热衷于消除这一点。真正的大问题是许多演讲者使用的设备非常差,以及他们对确保音质需要做什么缺乏了解。.
我们该如何解决这个问题?
几乎所有事情一样,解决方案在于应对众多不同因素。我们需要演讲者使用更好的麦克风,需要他们对麦克风技术有更多了解,并且更加关注背景噪音和回声。这里还有大量的教育工作要做,这也是我们用我们的演讲者整理视频宣传活动.
我们也可以在这里使用技术来帮助。未来,你和我可以回到这个话题,讨论技术如何帮助人们提升自身质量,并在他们无法时弥补问题。.
最大的区别在于配置良好的好设备和配置不当的差设备。.
所以,如果我们比较通过硬件(例如硬件控制台)接收的声音与通过 Interprefy 接收的声音,只要演讲者使用合适的设备,差别不会太大?
是的,那’是对的 Dora。这里的主要区别不在于本地和远程工作,而是它’在于更好且配置良好的设备与配置不佳的设备之间。硬件本地系统在音频质量方面没有固有差异。许多使用 RSI 系统的会议和活动参与者的麦克风质量优于现场的同类设备。有些人希望使用更差的设备参与。就像业务中的其他所有事物一样,需要得到适当的管理。.
那么,RSI 与基于硬件的解决方案有什么区别?
RSI 所提供的是选择。通过灵活性实现选择。当我的妻子第一次怀孕时,她的雇主——一个男人,直接告诉她她已经没有工作了。值得庆幸的是 that’ s 现在是非法的。我倾向于认为 RSI 意味着那些口译员 don’ t 想或 can’ t 旅行可以更灵活地工作。我 didn’ t 喜欢我妻子所遭受的糟糕态度,同样,我认为雇主应该尽一切可能让人们工作,无论他们的状况或生活方式需求,我认为我们这些系统供应商有责任也要在其中加入这种灵活性。.
RSI 解决方案对组织同样灵活。您可以在任何地方举办会议或研讨会,并即时设置或更改配置。我们最近帮助一位宇航员在国际空间站向全球发声。坚持让宇航员亲自出席当然是荒唐的。.
回到压缩问题,你会对那些要求彻底取消压缩的人说什么?
消除压缩,无论是哪种形式的压缩,都不是灵丹妙药。我可以再次强调,这里没有灵丹妙药。整体解决方案的一部分是消除压缩的错误使用——包括不良的动态压缩和低比特率压缩。这意味着需要行业内的工程师深入了解技术并掌握细节。.
如果连续使用多个压缩函数怎么办?这会自动变坏吗?
这被称为级联压缩。 不,它也不会自动对动态或比特率压缩产生不良影响。.
级联压缩存在特定问题,当你设计解决方案时,必须付出努力。这'很合理担忧级联压缩,因为它需要大量努力才能实现,但如果你'有能力,它可以完成。而且做得非常好。以动态压缩为例,史上两项最伟大的音频创新都源于使用级联动态压缩。.
有些人似乎在评估诸如压缩等因素方面特别擅长,你是否应该利用他们来帮助你?
评估音频只有一种方法,那就是我们所说的盲测。理想情况下是双盲测试。任何自称在听音频问题方面特别擅长的人,都要问他们是否在盲测中进行的,也就是在一个他们不知道哪一个是哪个、且由与评估无关的人主持的程序中进行的测试。所有测试也应使用多位听众。.
很多人,可能大多数人,认为自己有非凡的听力,但只有大约二十分之一的人真的如此。'就像我们都认为自己是优秀的司机一样。.
良好的音质是通过细心并整体性地工作来实现的。.
有些人对音质以及如何实现它非常有主见。你对他们的回答是什么?
说二元术语的人,在‘musts’和‘must nots’中讲话的,根据我的经验,是错误的。我不喜欢看到压缩或任何其他音频工具被不公平地贴上坏名声。并不是因为我特别喜欢它,或特别倡导压缩,而是因为好声音是通过细致入微并整体性地工作来实现的。真正的完美主义者是非二元的,使用完整的工具箱,并且不倾向于简化的归纳。.
所有声音处理既可能做得很糟糕,也可能做得很好。做得好,意味着使用了正确的配置并在有益的地方应用。动态压缩如果使用不当会很糟糕,但这并不意味着它’是普遍错误的。正确应用时,它'是一个了不起的资产。.





更多下载链接



