翻译巨变!GenAI 颠覆传统,你的质量评估方法 OUT 了?

2025-07-29AI工具

Image

随着生成式人工智能(GenAI)和大型语言模型(LLM)技术的飞速发展,企业自动化翻译的基础架构也在经历深刻变革。过去二十年里,自动化翻译工作流程主要沿用专业的“TEP”(翻译、编辑、校对)人工翻译流程。

机器翻译(MT)的引入在很大程度上实现了这一传统流程的部分自动化。在改进后的半自动化流程中,“翻译”环节被自动化的机器翻译所取代,“编辑”则演变为人工后期编辑机器翻译(MTPE)。校对环节基本上仍由人工完成,以确保最终翻译达到预期的质量水平,并满足特定用途。

这种工作流程适用于翻译记忆库匹配和机器翻译系统逐句生成译文的环境,几乎不考虑文档层面的上下文。当时,大多数机器翻译的译文都存在明显的翻译错误和流畅性问题,需要翻译专业人员进行编辑,整合上下文,并确保译文符合企业级的术语、风格和文档层面一致性要求。

因此,用于评估机器翻译质量的传统自动化指标,在很大程度上是根据这些机器翻译系统和 MTPE 工作流程的能力和局限性而设计开发的。诸如 BLEU、METEOR 和 ChrF 等传统的基于词汇的指标,以及 COMET 等现代神经指标,主要用于执行逐句分析,检测和量化语言翻译的充分性和流畅性错误。这些指标在有效评估不同的机器翻译系统以及选择能够最大限度减少语言错误的系统方面,基本上是足够的。

诸如 Phrase QPS 和 COMET-QE 等无参考质量评估(QE)系统,也主要针对这种情况而设计,旨在提高效率,即对于那些有高度把握认为机器翻译在语言上没有错误的句子,可以跳过 MTPE 步骤。

然而,新媒网跨境了解到,随着GenAI技术的不断发展,传统的评估方法面临着新的挑战。
图片说明

过去十年,神经机器翻译(NMT)模型在准确性和流畅性方面都得到了显著提升,但并未从根本上改变这种半自动化的 TEP 工作流程。然而,LLM 生成的译文以及其他新的生成式人工智能(GenAI)功能正在显著改变这一基础。

我们已经从简单的句子级翻译,发展到大型语言模型(LLM)生成语境感知、文档级翻译的时代,力求与企业的语言偏好(如术语、品牌、风格和语气)保持一致。此外,Phrase 的 AutoAdapt 等新功能正在改变工作流程,包括文档级目标语言调整,从而自动完成之前由专业人工审校人员执行的大部分工作。

这种转变令人兴奋,但也给传统的自动化翻译质量评估指标带来了重大挑战,包括 COMET 等现代指标和 Phrase QPS 等质量评估(QE)系统。现在 GenAI 可以在很大程度上自动生成有针对性的“满足特定用途”的翻译,我们该如何验证和确保这些翻译的质量呢?

从神经机器翻译(NMT)到 GenAI 驱动的翻译的转变,给较旧的自动化评估方法带来了难以处理的复杂性。NMT 侧重于句子层面的语义准确性和语法正确性,而 LLM 现在可以针对并确保文档层面的一致性,以及符合特定的企业准则。这意味着,通常为逐句分析而设计的传统指标,可能会忽略整体翻译质量的关键方面,例如术语一致性和语调一致性。

为了应对这些新挑战,必须使用新的和改进的评估方法来增强传统的自动化机器翻译评估措施。Phrase 的人工智能研究团队一直在积极应对这些挑战,探索几种新的互补方法来自动化评估流程,这些方法适用于新的 GenAI 驱动的工作流程。这些方法主要旨在增强而不是取代我们现有的主要自动化质量指标 COMET 和 Phrase QPS。

(1) 针对 Auto Adapt 等模块的专用质量指标:Phrase 的 AutoAdapt 等新工作流程模块专门用于以提高“满足特定用途”翻译的方式转换文档级翻译,从而确保代词和术语的一致翻译,以及正式程度和语气。为了评估 AutoAdapt 的有效性和生产准备情况,我们开发了几个专用的质量指标,专门用于衡量这些有针对性的文本转换在多大程度上实现了其调整目标。

这些指标计算有针对性的统计数据,衡量整个文档中的术语遵循和一致性。它们还跟踪生成正确性别和正式程度的代词的一致性,以及与指定企业偏好相关的其他特定翻译统计数据。虽然单独应用这些指标可能无法向最终客户提供完整的画面,但它们在对比评估 AutoAdapt 等模块的影响和生产准备情况方面非常有效。
图片说明

通过将这些指标对比应用于目标文本的两个版本(AutoAdapt 的输入和输出),我们可以确认并确保 AutoAdapt 执行的转换确实提高了文档的“满足特定用途”性质。这些指标的另一个优点是,它们在很大程度上可以在运行时计算,性质上类似于 QE 指标。这使得它们有可能在未来用作自动化工作流程中的质量把关者,标记需要人工审核并将其发送给人工审核的文档。

更广泛的研究社区也一直在采用类似的方法。例如,2023 年 WMT 机器翻译术语共享任务采用了类似的术语一致性 (TC) 指标,并将其用作评估此专用任务提交内容的主要指标。

(2) 人工编辑和词汇指标:虽然上述新的有针对性的指标在翻译时(即无法获得“黄金”参考翻译时)非常有用,但可以通过基准测试和离线质量测试场景中的其他指标来增强和补充它们。在这些场景中,可以生成经过仔细编辑的最终人工翻译,并将其用作目标参考。然后可以使用翻译编辑率 (TER) 和字符 n-gram F-score (ChrF) 等传统词汇指标来衡量各种中间翻译与最终参考翻译之间的“距离”。这可以验证并确认 AutoAdapt 等工作流程步骤执行的转换是否按预期执行,并大大减少达到参考翻译所需的编辑工作。

(3) 对比 A/B 测试:另一种越来越多地用于对比评估 GenAI 生成的翻译的相对质量的方法是,要求人工专家对它们进行整体评估。专家将两个完整的翻译并排比较,并被要求指出哪个更好。这种方法既可以用于离线基准测试场景,也可以用于实时工作流程,在实时工作流程中,专家可以提供他们对在几个备选方案中选择最终翻译的偏好。

(4) LLM 作为评判者:最后,最新 LLM 的新兴功能开辟了直接使用 LLM 对各种任务进行自动化评估的新机会。这种设置最近被称为“LLM 即评判者”。通过使用通过上述对比人工 A/B 测试收集的相对少量的数据,可以专门化 LLM 以执行此类 A/B 对比评估本身。通过使用情境学习 (ICL),我们可以使用内容偏好和人工示例提示“LLM 作为评判者”,使其能够根据这些特定标准评估翻译。

(5) 新的代理工作流程:为了利用这些新兴和现有评估方法的潜力,现在正在积极探索基于代理人工智能模块的更灵活的工作流程。这些工作流程可以灵活地将上述许多或所有方法链接在一起,形成一种综合方法,可以验证并确保文档层面的质量、一致性以及与企业标准的一致性。

GenAI 和 LLM 驱动的翻译的兴起不仅改变了我们生成多语言内容的方式,而且从根本上改变了我们需要衡量其质量的方式。随着翻译从句子级输出转变为反映企业特定语言的复杂文档级结果,我们的评估方法必须跟上。

新媒网跨境认为,单一的指标或传统方法已不再足够。结合有针对性的质量指标、人工主导的比较评估以及 LLM 作为评估者的新用途,可以更全面地了解“满足特定用途”的翻译性能。这些方法共同为我们提供了一种实用的方法来评估人工智能驱动的翻译是否真正满足全球企业对一致性、准确性和品牌契合度的标准。

展望未来,这些方法将随着多语言内容生成技术本身的发展而不断发展。通过现在建立这种多层框架,我们可以确保自动化翻译质量继续满足企业随着 GenAI 能力增长而产生的实际需求。

总而言之,为了适应 GenAI 时代翻译质量评估的需求,我们需要采用一种多维度、综合性的方法,充分利用现有的和新兴的评估工具和技术。这不仅能确保翻译的准确性和流畅性,更重要的是,能确保其与企业的品牌形象、目标受众和整体战略保持一致。

新媒网跨境获悉,GenAI 时代,自动化翻译质量评估正朝着更加智能化、精细化和个性化的方向发展。

新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。

本文来源:新媒网 https://nmedialink.com/posts/7761.html

评论(0)

暂无评论,快来抢沙发~
随着GenAI和LLM技术发展,传统自动化翻译评估方法面临挑战。新方法需评估文档级一致性、术语和风格。Phrase等公司探索新指标如AutoAdapt专用指标、人工编辑和A/B测试、LLM评判等,构建更灵活的工作流程,以确保GenAI驱动翻译的质量、一致性和品牌契合度。
发布于 2025-07-29
查看人数 811
人民币汇率走势
CNY
关注我们
新媒网跨境发布
本站原创内容版权归作者及NMedia共同所有,未经许可,禁止以任何形式转载。