瑞科翻译公司:语言行业AI的最新趋势

近年来,人工智能取得了令人难以置信的进步,自2022年底OpenAI的ChatGPT发布以来,成为每个行业的话题。

在语言服务行业内,人工智能的使用当然不是什么新鲜事,但它却在继续塑造这个行业。由于MT和合成语音质量的进步(以前被认为是不合格的、不准备使用的技术)现在正走出阴影,呈现出新的用例和机会。这是一个我们可以预期会加速的趋势。

实时字幕是一项自视频会议激增以来得到极大发展的服务,这一领域的技术已经取得了巨大的进步。

从本质上讲,现场字幕服务涉及将口语内容以最小的延迟转换为多种语言的书面内容。实时字幕可用于在线会议以及现场广播、现场活动,并使广播内容可以在线获取。目前有三种主要方式可以生成实时字幕:1.一位译员实时打出字幕。2. 使用语音转文字技术和机器翻译生成初始字幕,然后由译员实时编辑输出结果。3. 字幕完全由机器生成,没有任何人工干预。

虽然第一种选择是传统的方式,但它也越来越成为一种罕见的现象。即使是现场直播,为了提高速度和效率,人工和机器的混合也正在成为常态。自从Zoom火爆以来,由于需求的增加和MT技术的进步,纯机器生成的现场字幕的使用已经增加。

这一趋势值得注意的是,与更广泛的多语言会议空间类似,现场字幕服务的提供商来自行业的不同方面。•媒体本地化供应商在更广泛意义上的字幕领域经验丰富。•正在将其技术融入会议和活动空间的机器翻译供应商。•希望为其现有客户提供更强大的服务组合,同时也能接触到预算较少的客户的RSI供应商。•来自行业外的技术公司以及视频会议巨头,如Zoom、MS Teams和Webex,他们都在其平台上添加了自己的文本到语音翻译功能。

换句话说,随着人工智能的进步,我们开始看到过去很长一段时间内相当独立的行业部门之间的交叉。

配音是媒体本地化行业中的主要服务之一,到目前为止,它(几乎)完全由配音演员来完成。然而,人工智能配音的最新发展可能会改变这一局面。

合成语音技术的发展已经有了很大的进步。一些合成语音现在听起来与人类的声音惊人地相似,使人很难将它们与实际的人类语言区分开来。最新的技术创新使合成语音能够模仿原始说话者的语气和举止。

尽管目前还不适用于娱乐目的,但人工智能配音的当前用例范围从国际广播到纪录片和企业视频的配音。此外,在接受Nimdzi 100采访时,一些媒体和游戏本地化服务提供商报告称,他们正在探索以下用例:•次要角色:人工智能配音可能用于次要角色,要么以完全合成的方式,要么以一个配音演员说出所有次要角色的方式,声音被合成改变,每次听起来都不同。•背景喧嚣:在游戏中,当玩家仍然需要理解背景信息,但娱乐因素不那么重要时,人工智能配音可以用于背景喧嚣。•分层:一些LSP提到,他们正在考虑向客户提供不同的等级,这取决于不同类型的制作和预算可能需要的配音质量。•通过人工智能改变声音。—儿童演员有可能由年长的演员进行配音,然后利用人工智能将声音改变成年轻的声音,这将是效率的一大提高。—在许多传统的配音国家,特定的配音演员被分配给屏幕上的演员(永久地,总是同一个声音)。但如果这些配音演员突然太忙或退休怎么办?人工智能可能会给这样的配音演员带来机会,让他们出售自己的声音,也就是说,由别人来做实际的配音工作,然后在之后人为地改变声音。•语音描述(AD):语音描述是一项尚未在所有市场提供的服务,在有语音描述的国家,大多数的语音描述服务是以英语提供的。考虑到AD通常需要比表演更中立的叙述,使用人工智能可能是以预算友好的方式将AD带到更多市场的方法之一。

合成语音应用和人工智能的发展已经引起了商业界的关注。尽管对这项技术的探索还在进行中,但重要的是,人工智能配音的想法已经从被拒绝过渡到被主要媒体本地化参与者积极研究和考虑。

这不是我们第一次报道人工智能,但它仍然是一个热门话题,因为人工智能以如此快的速度发展。

但是,让我们首先澄清一下,当我们谈论MI时,我们到底是什么意思。MI是使用人工智能将一种语言的口语信息传输到另一种语言的口语信息中。MI,也可以称为语音翻译(S2ST),使用自动语音识别(ASR),然后是人工智能转录,机器翻译,最后是合成语音,以目标语言说出信息。这种所谓的级联模式是迄今为止市场上所有MI解决方案的基础。

对于企业来说,应用程序形式的MI软件使用最广泛,而且越来越受欢迎。这种类型的MI工具被用来翻译会议、大会、大型活动(包括在线和现场)或其他在线口语互动,如在线课程。在会议和活动领域,Wordly是目前市场上最专业和最知名的解决方案,尽管到目前为止不是唯一的。例如,其他值得注意的解决方案包括来自GTCOM和XL8的解决方案。请关注这个领域。

直到最近,大多数MI解决方案针对个人消费者(如游客)特别是在亚洲市场。它们被设计为促进简单的双向交流。然而,MI正越来越多地进入多语言在线会议领域,这在传统上是人类会议口译员的领域。这种转变有两个主要原因;第一个是疫情引起的,第二个是技术原因。疫情开创了一个虚拟会议的新时代,推动了对在线多语言的需求。同时,这一领域的技术也取得了重大飞跃,特别是得益于机器生成的现场字幕的进步。

这种需求的增加和质量的大幅提高相结合,导致更多的公司投资于语音转语音技术和新的解决方案在市场上不断涌现。这一发展不仅适用于口译领域,也适用于媒体本地化领域,在该领域,人工智能配音正在出现,一些解决方案甚至可以在合成版本中保留原演员的声音(见关于人工智能配音的部分)。当涉及到人工智能时,我们最终将见证媒体和口译领域的融合,这不是不可能的。

另一个值得注意的发展是,RSI供应商开始进入这一领域。2023年1月,KUDO是第一个RSI平台,以发布自己的MI功能。这一发展使该公司可以做到以下两点:1. 一方面,可以接触到更大的客户群,另一方面,也可以接触到那些预算较小的客户,而对于这些客户而言,RSI服务过于昂贵。2. 在与视频会议巨头(如Zoom、MS Teams和Webex)竞争时保持竞争力,这些巨头除了封闭式字幕和机器生成的现场字幕外,还增加了自己的RSI功能。至少现在,这些大平台都没有自己的MI功能,尽管Zoom有一个Wordly的附加功能。

OpenAI最新的GPT-3(生成预训练转换器3)变体,称为ChatGPT,最近风头正劲。有充分的理由支持这种现象——技术已经发展了很长一段时间,有些人将其视为AI的一个转折点。对于那些不了解的人,这里简要介绍一下:GPT-3使用公共数据进行训练,并应用机器学习技。