谷歌翻译支持桑戈语！500万用户迎AI助力

Vocabulary-Augmented Prompting for Sango —— 填补资源稀缺非洲语言AI空白的技术探索

1. 背景及现状

2026年5月6日，谷歌翻译正式将非洲中非共和国的桑戈语（Sango）纳入支持语言范围。这一发展无疑为语言技术领域注入了新活力，不仅降低了桑戈语文本处理的门槛，也让这一少数语言更多地进入全球AI领域的对话。

然而，这一变化也暴露了一些结构性问题。神经机器翻译（NMT）的质量高度依赖于可用的双语平行语料库，而对于像桑戈这样的资源稀缺语言，线上数字语料库几乎全部来自宗教文本、非政府组织（NGO）或联合国文件和少量的维基百科页面，总容量只有数兆字节。这种情况使得通过这些数据训练出的NMT系统只擅长处理特定领域的词汇，而对诸如日常商业、医疗术语和文化语境等专用语言需求则力不从心。

这是一种数据层面的局限性，而非技术结构的问题。实际上，许多处于零基础资源状态的非洲语言都面临同样的困境。我们针对这一问题开发了SangoAI。这一平台的目标是通过更深入的词汇基础建设，提升对特定领域的翻译支持，同时满足本地化学习需求和实际使用场景需求，与通用翻译形成有效互补。

预计约500万桑戈语母语使用者中，大多数日常活动，例如市场交易、学校教育和医院运作等都依赖这一语言。然而，这种语言在诸如人道主义援助（如无国界医生、联合国儿童基金会、世界卫生组织等）领域的翻译支持上却长期空白。而中央非洲共和国的大部分数字服务，如政府门户网站或移动支付，也仅支持法语，这导致该国多数民众被排除在数字化服务之外。

桑戈这一案例并非孤立。包括这个语言在内，约2000种非洲语言亟须在词汇整理、领域精准性、学习平台和语音验证等方面得到专注构建。通用性翻译仅仅是起点，更深层次的基础设施建设才是实现这些语言数字化发展的核心。

2. 低资源语言处理难题

传统的神经机器翻译（NMT）技术路径大致分为以下几个步骤：

收集足够大的源语言与目标语言之间的平行语料库（通常需要至少千万对句子对）。
在此语料库基础上训练或微调序列到序列模型。
使用BLEU、chrF或COMET指标进行评估，在实际场景中部署并优化。

然而，在桑戈语的情况下，第一个步骤就难以为继。目前根本没有可以利用的大规模桑戈-法语平行语料库。即便是维基百科，也只有不到200篇条目，多数为简短的占位文本。学术论文中确实涵盖了一些桑戈文本，但这些资料大多隐藏在学术付费墙后，且横跨殖民时期与现代，不同的拼写规则和扫描错误叠加，再次限制了数据的可用性。整个互联网能够供公众使用的桑戈数字化文本容量仅以兆字节计，这打破了目前AI领域的几乎所有假设。

Facebook母公司Meta的“NLLB（No Language Left Behind）”项目对于所有资源稀缺语言的覆盖值得称道，理论性成果显著，但其在桑戈语上的实际输出质量尚未达到可以产业化应用的程度。同时，专注于开放研究的非洲自然语言处理（NLP）社区Masakhane虽然为许多非洲语言构建了优秀数据集，但他们并不旨在建立商业API服务，且具体到桑戈语的覆盖仍然不足。

微调方法也面临不小挑战。即使能够收集到5万句干净的桑戈句子（我们尚未做到），亦需要高昂的训练计算成本、自主控制的模型、复杂的MLOps基础设施以及专业人员的持续维护。此外，这种方法还会将开发时间与成本线性绑定于每一种新增语言，极大限制了规模扩展的可能。

基于上述局限，我们选择了一条新路径：利用新一代的大型语言模型（LLM），通过精心构建的词汇数据库和语言系统提示，结合“词汇增强型提示”技术，为资源稀缺语言提供基础设施支持。这种方法虽然牺牲了部分理论优雅，但其实现路径简单高效，特别适合当下资源稀缺语言的实际使用场景。

3. 我们的技术方法：词汇增强型提示（Vocabulary-Augmented Prompting）

核心原则：对于资源稀缺语言，最有价值的模型推理支持不是模型的微调，而是提供小型、高质量的词汇基础信息。

具体实现思路：对于像桑戈语这样数据极为有限的语言，仅需将不到1000条经过母语者核实的高质量词条与简单手写语法规则注入大型语言模型上下文，即可在指定领域实现生产级翻译，而无需对模型微调、构建平行语料库或额外的训练计算。这种方法通过词条库+规则提示+前沿LLM+按词不确定性标记→用户驱动的数据集增长机制，实现了从无到有的跨越式成果。