Finger points to circular rings

通过卓越的术语管理来改进机器翻译译文质量

卓越的术语管理可帮助提升机器翻译译文质量

随着专业人员和普通大众越来越多地使用免费的通用机器翻译 (MT) 系统,我们必须认识到这类引擎可能会输出有缺陷的译文。不尽人意的译文或严重错误可能会对您的业务造成巨大损失。但您可以使用一些方法提升 MT 质量,例如有效管理 MT 术语。

术语给机器翻译带来了哪些挑战?

由于术语与其所表达的概念之间关系非常复杂,因此术语一直是横在机器翻译面前的一道鸿沟。

使用免费 MT 系统翻译特定领域的文本时,术语往往翻译不当,导致译文质量不尽人意。如果是医学和法律内容,后果则尤为严重。

尽管可以利用特定领域的语料库来训练 MT 系统,在一定程度上小幅度提升译文质量,但使用通用 MT 系统可能无法保证术语的一致性和准确性。

MT 引擎的译文质量取决于用来训练的双语语料库的质量和其他因素。因此,只有当语料库的原文和译文部分都包含相关术语时,才能保证术语的准确翻译。

神经网络机器翻译 (NMT) 系统运行时会分析术语的概率分布,这类系统的存在很有必要,但却不足以确保译文质量准确出色。因为只有术语在语料库中达到一定的出现频次要求时,解码器才能获取到准确的译文。如果某个术语的出现频次不足,那么就会由于比重不足而无法成为一个候选的译文,则该术语将无法正确翻译。

一只手正在伸向包含人物图片的球体

通用 MT 训练为何会导致译文出现错误?

通用 MT 系统通常使用包含各色内容的大型语料库来训练。这就可能出现:真正要翻译的是某一领域的术语,而词频最高的候选术语与其待选译文完全来自其他领域。这种情况可能导致待翻术语没有准确地翻译成目标语言。

例如,英语术语 terminal 可以译为端子,也可以译为枢纽。通用 MT 引擎难以区分实际语境,可能会导致译文错误。

要解决此问题,必须运用包含特定领域专业术语的双语文本来训练定制 MT 系统。

如果用于训练的专业文本中的术语不一致,那么仍然无法保证引擎输出准确译文。

目前市面上有哪些解决方案?

根据该领域研究,应当通过注释的方法将语言信息注入到 NMT 系统中。

能否手动或半自动进行注释,取决于资源(如词汇表)和条件(如时间、成本,以及是否有人工注释人员)。

Lionbridge 提供哪些解决方案?

Lionbridge 的 Smart MT™ 能够将语言规则应用到源文本和目标文本中,还能够根据具体配置的保留不译 (DNT) 和词汇表列表应用术语。

我们能够帮助客户创建、维护并定期完善词汇表,补充新的相关术语,淘汰过时的术语。运用 Smart MT 创建词汇表后,客户就可以将其用于所有 MT 引擎,从而节省时间和成本。

如何更好地将词汇表应用于 MT 项目?

在 MT 项目中应用词汇表并非看上去那么简单。如果应用不当,可能会对机器翻译的整体质量产生负面影响。在 MT 中应用术语的理想方式是训练 MT 引擎。

结合使用训练有素的 MT 引擎、定制的词汇表以及预处理和后处理规则识别技术,能够有效确保 MT 输出的译文使用正确术语,译文还能够遵循客户文档的风格。

点和三维立方体覆盖深色背景

机器翻译解决方案应该涵盖哪些术语管理功能?

评估机器翻译的术语管理功能时,应考察解决方案是否具备以下能力:

  • 管理词汇表
  • 管理保留不译 (DNT) 清单
  • 管理建议译文和已审核译文
  • 通过词汇表和翻译记忆库 (TM) 导入功能批量上传术语和句子
  • 创建具体领域或产品特定的 MT 引擎配置文件,并在这些引擎之间实现自动内容路由

拥有这些功能便可以确保输出更高质量的译文。

Lionbridge Smart MT™ 的工作原理

Smart MT 通过连接工具与许多第三方 MT 系统协同工作。可以将其作为“MT 控制中心”,实现以下目标:

  • 连接到领先的外部 MT 提供商,例如 Microsoft、Google、Amazon、DeepL 和 Yandex。
  • 管理术语 — 可以动态添加和更新词汇表或保留不译 (DNT) 术语,以此维护术语并确保术语正确显示。
  • 应用语言规则,允许用户修改原文或生成的 MT 译文,以解决已知问题并提高 MT 质量。

Lionbridge 还提供其他自动化功能,如果训练语料库和 MT 译文中使用的术语与客户词汇表不一致,我们的解决方案可以将其识别出来;如果训练语料库或之后的 MT 译文未遵循经过审核的术语,这些自动化功能也可将其识别出来并进行更正。

如果我们了解到 MT 不包含所需术语,则会建议使用包含 DNT、产品名称和特定关键领域或品牌术语的词汇表。

词汇表创建和使用的其他技巧

为确保能够获得满意的机器翻译效果,我们建议您在创建词汇表时考虑以下准则:

  • 若要将某个术语加入词汇表,应当确认这个术语在源文中的每一处意思都相同,这类术语通常是专业术语、客户核准的词汇和技术术语。
  • 当一个源术语存在多种译法时,词汇表中应仅包含其中的一种译法。
  • 主要纳入名词短语。这比较适合多字术语、行业特定术语或客户特定产品名称。
  • 避免将一般性或常见的词汇列为术语,如果单个句子中存在许多术语条目,翻译质量可能会受到影响。

联系我们

如需详细了解 Lionbridge 如何帮助您管理术语并充分利用 MT,请立即联系我们

linkedin sharing button

Yolanda Martin 和 Janette Mandell
作者
Yolanda Martin 和 Janette Mandell
  • #technology
  • #blog_posts
  • #translation_localization