AI翻译报告:NMT更省成本,LLM流畅度超90%!

2025-11-23AI工具

AI翻译报告:NMT更省成本,LLM流畅度超90%!

新媒网跨境获悉,当前,机器翻译(MT)与生成式人工智能(GenAI)在翻译领域的应用日趋成熟,但两者究竟孰优孰劣,尤其是在企业级翻译场景下,一直是业界关注的焦点。近日,Acolad Labs发布了一份深度研究报告,对神经机器翻译(NMT)与大型语言模型(LLM)的性能进行了比较分析,旨在为行业提供清晰的洞察。

研究方法:实战内容与多维度评估

这项研究由Acolad Labs主导,基于前一阶段的经验积累,选取了真实世界的翻译内容进行测试,以确保研究结果的实用性。研究主要分为两个核心组成部分:

首先,研究对纯自动化翻译的性能进行了评估。在此阶段,NMT与LLM的翻译结果在未经任何人工后期编辑的情况下进行对比。

其次,研究引入了“人工参与”模式(Human in the Loop, HITL)。专业语言学家对机器生成的译文进行审校和润色,以此评估人机协作的综合效率和翻译质量。

为了保证评估的独立性,所有人工审校环节均由第三方语言服务提供商完成。这一阶段的研究还扩展到了更多语种,包括法语、罗马尼亚语、瑞典语和中文(简体)。研究团队还根据过往经验,优化了AI模型的提示词库,并强化了术语和风格指令,例如引入了来自机器翻译的词汇表清洗技术,以及跨模型提示词抽象技术。

此次研究还全面比较了各种主流AI翻译技术,涵盖了多个神经机器翻译系统和大型语言模型,旨在对企业级语言解决方案中的AI能力进行详细对比。

自动化翻译性能评估:NMT优势明显

在纯自动化输出分析环节,研究评估的系统包括:一个预训练的神经机器翻译引擎、一个通过定制AI平台API访问的大型语言模型,以及一系列知名大型语言模型,如OpenAI的ChatGPT-4(Turbo)、Mistral(Large)、Llama 2(70b)和Acolad自研的LLM。

分析所用的内容均来自真实场景,包含格式、内联标记等风格化元素以及专业术语依赖,这些都是典型翻译任务中常见的复杂内容。这些内容经过预处理,通过翻译管理系统进行解析,自动化输出结果与熟悉相关领域的语言学家提供的专业译文进行比较。

为提升LLM的输出质量,研究团队尝试了多种技术,包括要求LLM遵循特定术语和风格限制,并运用了单次/少次提示抽象等方法。值得注意的是,不同提供商的LLM对技术内容结构的提示策略存在差异。

NMT、LLM以及专业人工翻译的输出结果均通过一系列行业标准指标进行评估,包括:

  • BLEU (Bilingual Evaluation Understudy): 广泛使用的指标,通过匹配词语序列来衡量机器译文与高质量人工译文的接近程度。
  • chrF (Character Level F-score): 评估字符级别的相似度,与BLEU的词语级别评估不同。
  • COMET (Crosslingual Optimized Metric for Evaluation of Translation): 采用神经网络预测人类对机器译文的评分,而非单纯的统计比较。
  • PED (Post-Edit Distance): 衡量将机器译文修改为高质量人工译文所需的工作量。
  • TER (Translation Edit Rate): 类似于PED,专注于达到完美匹配所需编辑的数量。

针对英译法语对,Acolad的NMT引擎在三项主要质量评估指标(BLEU、chrF和COMET)上均优于包括OpenAI的ChatGPT-4(Turbo)、Mistral(Large)、Llama 2(70b)以及Acolad自研LLM在内的主要AI大型语言模型。近期更新的法语NMT引擎在PED和TER指标(数值越低越好,表示后期编辑工作量越小)上也表现最佳。

不过,研究发现LLM在COMET指标上表现良好,该指标被认为是衡量语言流畅度的有效标准,LLM的得分接近或超过90%的水平。这表明LLM在翻译和内容生成领域具有潜力,尤其是在法语等资源丰富的语种上。但需要指出的是,尽管COMET得分高,LLM的输出可能仍难以满足客户对准确性、词汇表和风格的预期。
A visual comparison of Neural Machine Translation (NMT) and Large Language Model (LLM) performance on French translation tasks.

英译瑞典语的测试中,结果与法语类似,NMT再次全面超越了主流LLM模型。
A visual comparison of Neural Machine Translation (NMT) and Large Language Model (LLM) performance on Swedish translation tasks.

对于**英译中文(简体)**语对,NMT引擎在除BLEU之外的所有指标上均表现最佳。研究指出,像中文这样的语素文字语言,在处理上仍然存在混合结果,但随着分词技术(将句子分解为词语或子词等更易处理的单元的方法)的不断改进,未来的模型有望展现出更好的效果。此外,有专家认为COMET是衡量翻译质量更有效的指标。
A visual comparison of Neural Machine Translation (NMT) and Large Language Model (LLM) performance on Chinese translation tasks.

在最后一项测试语种罗马尼亚语上,OpenAI的ChatGPT-4在所有指标上略微优于NMT模型,尽管两者的结果非常接近。研究团队表示将利用这一结果进一步迭代和改进NMT模型。与所有NMT系统一样,语言模型需要随着时间的推移不断更新和优化。然而,即便LLM在质量指标上得分更高,也可能出现一些意想不到的“怪癖”。
A visual comparison of Neural Machine Translation (NMT) and Large Language Model (LLM) performance on Romanian translation tasks.

人工参与审校:NMT降低后期编辑成本

除了评估全自动化翻译输出,研究还纳入了人工参与(HITL)评估,以全面衡量翻译质量。所有样本均提供给经过客户培训的语言学家,并以盲测形式呈现,确保评估的公正性。语言学家对经过机器翻译后期编辑(MTPE)的内容进行了重新评估,并提供了详细的评分卡结果(每种语言五份),包括分段分析和语言学家的评论,以供进一步审视。

HITL评估结果显示,尽管LLM可以生成可接受的译文,但仍存在需要人工干预的显著错误。与GPT-4等LLM相比,NMT系统在减少后期编辑工作量方面表现更佳,PED和TER得分均较低。HITL评估还发现不同语种的错误率存在差异,某些语种(如瑞典语)比其他语种(如法语)更具挑战性,错误率更高。这表明对于复杂或不常翻译的语言,人工审校尤为关键。

展望:LLM与机器翻译的未来走向

随着LLM日益复杂,Acolad研究认为,在可预见的将来,经过优化的NMT模型在生成高质量、易于后期编辑的译文方面,尤其是在处理传统翻译管理系统工作流中的真实世界内容时,表现出更一致的成果。

值得关注的是,经过高度训练的NMT模型(使用特定领域内容和术语)不受生成式AI常见的一些技术挑战和“怪癖”影响。NMT提供了更高的可预测性,尤其是在长期运行和特定语种优化方面。研究还指出,即使是通用的NMT输出与LLM输出相比,虽然质量可能稍低(后期编辑距离增加等),但其输出的可预测性却保持一致。

LLM的翻译质量下降速度较快,尤其是在非英语源语言以及资源较少的语种中更为明显。其内容输出会随时间产生显著变化。例如,AI幻觉现象(尤其在资源较少的语言中)可能会导致译文完全失去实用价值。这体现在LLM对URL、客户或领域特定术语等技术内容,以及短句的处理不当上,意味着LLM在批量或规模化处理内容时,尚未能提供可靠的结果。

总体而言,Acolad的研究结果结合专业人工审校发现,尽管LLM的输出得分相对较高,但它在处理包含格式和内联标记等结构化元素的复杂内容时仍面临挑战。此外,管理跨语言和模型的复杂提示词需求,将增加LLM技术在翻译工作流程中的总成本,即使原始处理成本正在下降。

因此,如果需要大量内容的自动化翻译而无需人工输入或后期编辑,目前来看,依赖成熟高质量的机器翻译解决方案可能更为明智。即使是采用人工参与模式对自动化翻译输出进行编辑,相比反复迭代提示词以优化LLM输出,使用机器翻译在成本效益上仍可能更优,因为它节省了大量时间。此外,NMT具有较低的PED和TER,意味着相比LLM的输出,NMT需要更少的工作量进行修正。

尽管存在这些结果,但生成式AI大型语言模型在自动化翻译中仍将发挥巨大作用,尤其是在模型不断完善之后。它在风格化重写机器翻译输出等方面具有令人兴奋的潜在应用。有充分证据表明,LLM在质量评估中可能发挥关键作用,例如支持自我反思的后期编辑功能。它们在处理传统机器翻译模型因数据集限制而难以应对的歧义、习语、文化典故甚至幽默方面,展现出令人振奋的可能性。

NMT与LLM:如何做出正确选择?

新媒网跨境了解到,在神经机器翻译(NMT)与大型语言模型(LLM)之间做出选择,主要取决于具体的翻译需求和技术应用场景。

如果您的首要考量是专业内容的翻译速度和准确性,NMT无疑是更优的选择。NMT专为翻译任务量身定制,在准确性方面通常优于通用型LLM,但可能需要投入大量训练资源,有时译文在自然度上略显不足。

另一方面,如果项目对语言的自然流畅度和会话性要求更高,尤其是在英语语境下,并且您有足够的时间对输出结果进行细致调整,那么LLM可能更适合。LLM相比NMT速度较慢且资源消耗较大,但通过提示工程等技术,其输出质量可得到显著提升。然而,需要警惕LLM可能产生不一致的结果以及潜在的错误,例如幻觉现象或不相关的添加。

总而言之,当对高度准确的翻译成果有快速交付需求且预算允许进行开发投入时,应优先选择NMT。若项目允许更多的开发投入,并受益于生成流畅、会话性强的语言,同时能够容忍并修正潜在错误,则可考虑LLM。

新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。

本文来源:新媒网 https://nmedialink.com/posts/ai-translate-nmt-saves-cost-llm-fluency-90.html

评论(0)
暂无评论,快来抢沙发~
Acolad Labs研究对比神经机器翻译(NMT)与大型语言模型(LLM)在企业级翻译中的性能。NMT在准确性和后期编辑成本方面更优,LLM在语言流畅度上表现良好,但在处理复杂内容时面临挑战。选择NMT或LLM取决于具体翻译需求和应用场景。
发布于 2025-11-23
查看人数 162
人民币汇率走势
CNY
亚马逊热销榜
共 0 SKU 上次更新 NaN:NaN:NaN
类目: 切换分类
暂无数据
暂无数据
关注我们
NMedia
新媒网跨境发布
本站原创内容版权归作者及NMedia共同所有,未经许可,禁止以任何形式转载。