LLM多语推理破局!SFT实测,准确率暴涨22%!

在全球化日益深入的今天,语言作为连接不同市场和文化的重要桥梁,其作用不言而喻。尤其对于中国的跨境电商、贸易和文化交流等领域而言,高效准确的多语言沟通是成功的关键。随着人工智能技术的飞速发展,大型语言模型(LLMs)已成为处理多语言信息的重要工具。然而,一项值得关注的现象是,当用户用非英文语言向LLM提问时,尽管模型最终能给出相应语言的答案,但其内部的推理过程却往往默认使用英语或中文。这种“幕后语言切换”的行为,不仅可能影响指令遵循的准确性,也为人类监督和多语言评估带来了不小的挑战。
想象一下,一位跨境卖家在日本市场推广产品,通过LLM生成营销文案或回复客户咨询。如果模型在用日语输出的同时,其内部逻辑推理却是基于英文进行的,那么在处理复杂概念或细微语境时,就可能出现偏差,影响最终信息的准确性和本地化程度。这无疑会削弱多语言评估的初衷,也可能让跨境从业者在关键决策中面临不确定性。
因此,业界普遍希望LLM不仅能用提问语言回答问题,更能以该语言进行内部推理。但这并非易事。过往的实践表明,强制模型使用非英语语言进行推理,通常会导致准确率下降。此前有研究指出,通过提示或引导要求模型仅使用提示语言进行推理,确实能提高其逻辑连贯性和与评分标准的匹配度,但往往伴随着显著的“准确率代价”。即使进行少量多语言微调,也无法完全消除这种权衡。更深层次的原因在于,模型不仅偏好用英语推理,而且用英语推理时效率更高。当研究人员强制模型严格使用目标语言(如斯瓦希里语或泰语)进行推理时,相比允许模型使用英语推理,其准确率常会下降。对于法语或德语等资源相对丰富的语言,这种权衡较小,模型几乎能以目标语言与英语同等水平进行推理。但对于低资源语言,严格执行则会更显著地损害性能。
那么,模型为何会倾向于切换到英语进行推理呢?很大程度上这可追溯到其训练过程。大部分推理数据以英语为主。即使对强大的多语言模型进行英文思维链(CoT)数据微调,也常常使其将英语内化为“内部逻辑语言”。正如Yong等人在2025年的观察,模型可能表现出一种“引用-思考”行为,即在提示语言中复制输入短语,但所有解释和推理过程都用英语进行。模型理解非英语问题,但更倾向于用英语进行推理。因此,技术目标是明确的:在不牺牲准确率的前提下,阻止这种语言切换现象,理想情况下,是推动(准确率,语言一致性)的帕累托前沿。
在探索如何让大型语言模型更好地理解并以用户指定语言进行推理的过程中,一些技术实践和方法被提出并验证。以下将深入探讨一种分两步走的优化策略,以及其在多语言环境下的实际效果。
探索实践:两步优化策略
本次实践的基础模型是deepseek-ai/DeepSeek-R1-Distill-Qwen-7B,这是一款强大的推理模型,通过对其R1模型的推理轨迹进行监督微调(SFT)而得,其内部推理倾向以英文和中文为主。在此基础上,研究人员尝试了两步优化方案:
第一步:通过小规模监督微调(SFT)教授目标语言推理能力。
研究人员对817条精选的多语言推理链进行了微调。这些监督数据来自LiMO项目,包含了高质量的推理数据,其风格与R1模型的长篇推理风格相匹配。这一阶段并未采用强化学习(RL),其核心目的仅在于训练模型,使其在推理过程中始终使用用户的查询语言。第二步:利用仅数学领域的广义策略优化(GRPO)提升准确率,同时保持推理语言一致性。
在SFT的基础上,研究人员进一步运用了一种GRPO强化学习方法。此方法在没有KL散度惩罚、使用更高的裁剪值(0.28 vs -0.2,类似DAPO)以及进行24次rollout迭代的情况下运行,并采用了LoRA(r=8,学习率1e-5)进行参数更新。该RL阶段仅在翻译成各种语言的Math-500数据集上进行。其直观意图是让强化学习去优化那些困难案例和验证行为,同时较高的裁剪值有助于减少推理风格灾难性地退回到英语。在此过程中,可验证的奖励设置为:准确率为1.0,推理轨迹的语言一致性为0.2,答案格式为0.2。
评估与衡量
研究人员将上述方法应用于三种不同的语言:日语(JA)、法语(FR)和西班牙语(ES),并在多个数据集上进行了测试,包括MMLU大学数学(MMLU Math)、AIME25、GPQA和MMLU专业医学(MMLU Med)。
- 同领域数据集: MMLU Math在难度上与训练数据相似,而AIME25则更具挑战性。
- 跨领域数据集: GPQA涵盖了高难度科学问题,MMLU Pro Medicine则由医学领域的高难度问题构成。
测试的优化策略包括:
- Base模型: 原始的
deepseek-ai/DeepSeek-R1-Distill-Qwen-7B。 - SFT: 在Base模型基础上进行小规模监督微调。
- GRPO-from-Base: 直接在Base模型上进行广义策略优化。
- GRPO-from-SFT: 在SFT模型基础上进行广义策略优化。
衡量标准:
- 准确率: 采用pass@k(1, 5, 10)指标,其中n=32。
- 语言一致性百分比: 要求推理轨迹和最终答案都必须使用目标语言(允许脚本符号、数字和标记)。研究人员会检查完整的CoT链和最终的方框答案。只有当两个部分都符合目标语言要求时,样本才计为“一致”(得分为1),否则为0。最终报告的是在整个数据集中的百分比。
核心洞察与发现
1. 小规模SFT能否重塑模型的“推理语调”?
模型的最终答案通常与用户查询语言保持一致。但我们更希望其推理过程也能与提示语言匹配。
研究结果显示,通过SFT,法语和西班牙语的语言一致性率接近100%(约99-100%),而日语的语言一致性率也显著提高,达到了80%甚至90%以上。下方图RQ0展示了这些平均数据。
这一结果表明,仅几百条高质量的多语言推理链就足以改变模型以英文和中文为主的内部思维偏好,转向其他语言。值得注意的是,日语在这方面仍显示出一定的顽固性,具体原因将在后续讨论中深入探讨。这进一步强调了指令遵循的深层含义,即不仅答案要符合提示语言,推理轨迹的语言也应与用户偏好一致,以增强模型的可信度。然而,仅靠SFT虽然解决了大部分语言不匹配问题,但在多数情况下,其准确率的提升仍低于模型以英语推理时的准确率(如图1.a中灰色虚线所示)。
2. SFT对准确率的影响:仅限语言推理风格吗?
SFT显著提升了语言一致性,那么对准确率有何影响呢?研究通过比较Base模型与SFT模型在pass@k(pass@10)上的准确率差异(SFT - Base)来评估。
研究发现:
- MMLU-Math(同领域): 在训练和测试领域一致的情况下,准确率取得了显著提升。
- 法语:约76% → 98%
- 西班牙语:约80% → 99%
- 日语:约68% → 88%
为了便于对比,我们将这部分数据整理如下:
| 数据集-语言 | Base模型准确率(pass@10) | SFT模型准确率(pass@10) | 提升幅度 |
|---|---|---|---|
| MMLU-Math-法语 | 76% | 98% | 22% |
| MMLU-Math-西班牙语 | 80% | 99% | 19% |
| MMLU-Math-日语 | 68% | 88% | 20% |
- AIME(混合领域): 尽管AIME也包含数学问题,但其难度远超LiMo数据集,使其难以被视为同领域。因此,SFT在西班牙语推理时,为了严格的语言一致性,牺牲了部分准确率。
- GPQA / MMLU Pro Medicine(跨领域): 在大多数情况下,准确率出现下降,但语言一致性在SFT后上升。这表明,将从训练领域获得的生成正确答案的能力泛化到其他领域并非易事。
启示: SFT能可靠地提升语言一致性,并常能提高同领域任务(如数学)的准确率。但在跨领域(OOD)任务上,SFT可能因模型对低资源语言的推理能力不足而过度叙述或改变原先最可能的Token路径,导致准确率下降,除非采取进一步行动(如通过强化学习(RL)进行增强,详见RQ2和RQ3)。
实践指导: 如果目标是提高语言一致性/推理风格,同时在同领域获得一定准确率,那么仅SFT是成本效益高的方法。如果还需要在难度较高和/或跨领域数据集上保持稳健性,那么进行RL补充会很有帮助。
3. 引入RL后,GRPO如何帮助提升准确率?
研究人员仅在Math-500数据集上训练GRPO,并评估了GRPO-SFT与SFT之间在MMLU-Math、AIME、GPQA、MMLU-Med等数据集上的准确率差异(Δ pass@10)。
同领域(In-domain): SFT虽有助于准确率,但并非总是如此。GRPO在SFT基础上带来了进一步提升,同时保持了推理轨迹的语言一致性。
| 数据集-语言 | Base模型准确率(pass@10) | SFT模型准确率(pass@10) | GRPO-SFT模型准确率(pass@10) | 提升路径 |
|---|---|---|---|---|
| MMLU-Math-法语 | 76.0% | 97.8% | 98.0% | Base → SFT → GRPO-SFT |
| MMLU-Math-西班牙语 | 80.5% | 98.6% | 99.1% | Base → SFT → GRPO-SFT |
| MMLU-Math-日语 | 68.1% | 88.0% | 91.5% | Base → SFT → GRPO-SFT |
由于MMLU-Math相对简单,模型在SFT后已接近90-100%的准确率,GRPO的提升空间有限,但这种提升依然持续。因此,跨领域数据集的结果更具参考价值。
跨领域(Out-of-domain): 在AIME日语/法语/西班牙语和GPQA日语/法语上均观察到积极的知识迁移。例如:
- GPQA-西班牙语 pass@10:68.7% → 85.2% → 85.7% (Base → SFT → GRPO-SFT)
- AIME-日语 pass@10:22.6% → 28.5% → 34.4% (Base → SFT → GRPO-SFT;GRPO为日语带来了显著提升)
尽管AIME法语/西班牙语和GPQA西班牙语的提升幅度不大,但这仍表明GRPO后,知识在跨领域设置中成功迁移。 - Pro-Medicine上的负面迁移: 日语的准确率有所提升,但法语和西班牙语却出现了下降。
解读: GRPO能够学习到泛化的验证/搜索习惯,包括语言一致性、数学推理风格、重新检查数值步骤以及更严格的答案封装。这些能力对GPQA和AIME等任务有帮助。然而,医学领域需要专业的词汇、证据措辞和校准的论断,这些在纯数学RL中是缺失的。此前的研究也表明,仅针对推理进行后训练可能会损害模型在下游指令遵循和知识召回任务上的表现。
4. 强化学习应从何处开始:Base模型还是SFT模型?
研究比较了GRPO-from-Base与GRPO-from-SFT两种策略的性能差异。
核心模式:
- GRPO-from-SFT是更稳健的路径。 例如,在MMLU-Math法语数据集上,GRPO-SFT的pass@10准确率稳定在98%左右,而GRPO-Base则接近70%。这表明,从SFT模型开始不仅能提供语言一致性,还能进一步提升准确率。
- SFT → RL 保持了多语言策略。 由于SFT已经强制模型使用日语/法语/西班牙语进行推理,在此基础上进行RL主要优化了正确性,而不会重新切换到英文或中文推理(见图1b)。
解读: SFT建立了多语言“推理策略”。从SFT模型开始进行RL,使得GRPO能在保持语言一致性的同时优化正确性。而从Base模型开始的RL有时会使模型倾向于回到其最初的推理风格,尽管仍能以目标语言生成答案。这可能使一些跨领域任务的表现看起来更好,但也增加了方差和风格退化的风险,相比从SFT开始的效果要差。
实践建议: 如果同时关注语言一致性(参见图1b)和更好的同领域准确率,应在SFT之后再进行GRPO。
5. 我们能否突破帕累托前沿,而非在准确率和语言一致性之间权衡?
研究人员绘制了每种优化策略下的准确率(x轴)与语言一致性(y轴)图,以观察帕累托前沿的动态。
观察结果:
- SFT策略使点位向上移动(语言一致性提升)。 在一些高难度数据集上,准确率略有下降。
- GRPO-SFT策略使点位向右移动(准确率提升), 与仅SFT相比,语言一致性损失极小,从而在以下方面创建了新的帕累托前沿:
- MMLU-Math(日语/法语/西班牙语):两个指标均表现出色。
- GPQA-西班牙语:展现出强劲的帕累托前沿点位。
- 未能触及帕累托前沿的领域: Pro-Med法语/日语和AIME-西班牙语,这些领域仍存在领域/奖励不匹配的问题。

核心结论: 观察每个语言标记内的图表(日语▲,法语■,西班牙语●)并比较颜色:黄色代表GRPO-from-SFT,蓝色代表Base模型,绿色代表SFT。在这样的比较下,GRPO-from-SFT(黄色)在12个语言-数据集对中的9个严格地帕累托主导了Base模型(蓝色),即在准确率和语言一致性两方面都更高。在其余配对中,黄色通常能提高语言一致性,但会牺牲一点准确率——这是一种混合权衡,而非严格的帕累托提升。SFT(绿色)与Base(蓝色)相比,通常会将点位向上/向右移动,而GRPO-from-SFT在严格主导发生时,通常描绘出右上角的包络线。
6. 模型融合(Model Merging)是否有帮助?
研究动机: GRPO+SFT策略在数学任务上表现优异,但在知识密集型任务(如Pro Medicine)上可能会出现退步,而单独的SFT策略在日语/法语/西班牙语上的准确率稳定性也不尽如人意。理想情况下,我们需要一种能够平滑这些权衡,同时保持强语言一致性的解决方案。此前的研究表明,模型融合是结合模型能力的一种有前景的方法,尽管可能伴随一定的性能下降。本次研究通过merge-kit工具,以等权线性融合的方式,将Base模型与另外三个SFT模型进行了融合。结果显示,这种融合方法作为一种“一站式”解决方案,潜力巨大。
结果:融合策略的平均表现
核心发现: 融合(MERGE)策略持续地缩小了最差情况下的性能损失,并提升了最低性能表现,尤其在SFT/GRPO出现下降的领域。例如,在Pro Medicine数据集上,融合模型为日语/法语恢复了大部分准确率(日语pass@10从SFT/GRPO的约47-58%提升至约70%;法语从约47-70%提升至约76%),同时在AIME/GPQA上保持了竞争力,在MMLU-Math上的表现也仅比GRPO+SFT低几个百分点。在西班牙语中,SFT在Medicine上已表现出色,融合模型则介于Base模型与SFT/GRPO+SFT之间,而非降低性能。总体而言,融合策略牺牲了部分峰值表现,换取了跨语言和任务的更低方差。
融合策略的解读:
参数空间的插值作用类似于集成/正则化器:
- 融合策略结合了GRPO强大的多步启发式推理能力与SFT的语言对齐先验知识。
- 抑制了对任何单一优化策略的过拟合。
- 稳定了跨语言行为。
在实践中,它展现出一种引导效应: “你可以在不重新运行RL的情况下,调整模型以提升稳健性。”
- 当您追求最高性能排名时,可以选择GRPO+SFT策略。
- 当您需要在日语、法语、西班牙语等多语言环境中获得可靠的、与语言一致的推理能力,尤其是在领域知识密集的任务中,融合策略将是更好的选择。
对于数据和计算资源有限的跨境从业者来说,融合策略是一个更安全的默认选择。
深入探讨:性能挑战与应对策略
在模型优化过程中,我们观察到了一些性能退步的现象,这对于理解LLM在多语言环境下的深层机制至关重要。
实证信号:
SFT和GRPO后,日语的语言一致性显著提升,但准确率仍落后于法语。例如,AIME-日语的pass@1从4.4%上升到17.9%,pass@10从22.6%上升到34.4%;而AIME-法语的pass@1从22.2%上升到27.3%,pass@10从46.3%上升到48.2%。这表明即使日语准确率提升显著,也仍存在其特有的障碍。
另一方面,AIME上的西班牙语表现出相反的张力:Base模型得分较高,因为它总是用英语进行推理,即便提示是西班牙语;而SFT+GRPO强制使用西班牙语推理链后,准确率却下降了。
在Pro-Medicine领域,从SFT开始的仅数学GRPO导致了性能退步(例如,法语pass@10从70.1%下降到46.6%,西班牙语从86.6%下降到76.6%,日语从75.9%下降到58.3%),而从Base模型开始的GRPO则损害较小。
深层机制分析:
- 语言先验竞争: 模型最强的推理先验知识存在于英文和中文中。当任务难度增加时,推理链会倾向于这些先验。SFT+GRPO虽然增强了语言一致性,但也减少了模型对之前有助于其推理的英文先验推理轨迹的访问(例如在AIME-西班牙语上的情况)。这种现象通过显著的语言一致性提升得以证实。
- 分词器与格式化代价(日语高于法语/西班牙语): 日语混合脚本、半角/全角数字、单位变体和千位分隔符等问题,会增加数字步骤的困惑度,而准确率恰恰对这些方面最为敏感。
- 西班牙语数学中的提示词错位: AIME题目中的代数/数论“套路”模型主要通过英语学习(如“let x be,” “gcd,” “mod”等短语)。而西班牙语的等效表达(“sea x,” “mcd,” “módulo”)更为罕见、更长、带有更多重音,导致模型在解题过程中倾向于更慢或不正确的处理方式。
- 医学领域奖励误设: 仅针对数学的RL优化的是数值正确性,而非生物医学知识的召回、论断的校准或证据风格。这使得模型过度依赖数学启发式方法,在临床问答中变得过于武断。
- 起始点效应: 从SFT开始的RL会推动策略向SFT的语言/风格锚点靠拢,并偏离中性推理。在医学领域,这导致了更大的性能下降。而从Base模型开始的RL则更为中性,性能下降幅度较小。
轻量级解决方案:
- 提示词层面规范化(在更多训练之前):
- 日语: 统一使用半角数字/小数/指数符号;不使用千位分隔符;明确的日语数学推理链模板。例如:“数字は半角… SI を使用し….”。
- 西班牙语: 倾向使用
gcd/lcm/mod,指数表示法,半角数字;简洁的步骤标题(Definimos/Sustituimos/Comprobación/Respuesta)。
- 分词器感知格式化: 数字和运算符周围保持一致的间距;避免会打断Token的格式化方式。
- 定向SFT补充: 使用少量、数学密度高的日语/西班牙语数据集,并采用规范化模板,以强化每种语言的先验知识。
- GRPO的奖励塑造:
- 针对AIME-西班牙语: 提高正确性权重,并将“仅西班牙语推理链”作为次要目标,这能促使模型用西班牙语推理,而不会因英文先验的正确答案而受到惩罚。
- 针对医学领域: 添加一个微型的医学奖励头(衡量术语的准确性、论断的校准、证据提示),并辅以KL散度或行为克隆正则化器,使其与医学SFT对齐以保持话语风格。使用混合目标批次(数学 + 临床问答),并在RL期间重放跨领域的医学示例,以避免领域遗忘。
核心总结: 性能退步可能源于目标与先验不匹配这一根本原因!日语/西班牙语数学任务受分词和提示词问题困扰;典型的跨领域医学任务则因缺乏领域特定奖励而表现不佳。通过规范化输入、添加少量语言感知的SFT补充,并将“仅数学RL”转化为多目标RL(对AIME-西班牙语采用正确性优先的权重,对Pro-Medicine添加小型医学奖励头),有望在保持目标语言输出和准确性的同时恢复性能。
实用建议与核心洞察
对于中国的跨境从业者来说,如何有效利用大型语言模型,同时规避潜在的语言陷阱,是提升国际市场竞争力的关键。以下是本次研究提供的一些实用建议:
- 如果预算和时间有限,优先进行小规模监督微调(SFT)。 仅需数百条高质量的SFT数据,就能显著改善模型的语言一致性,且通常不会牺牲准确率;在同领域任务中,甚至能带来准确率的提升。这对于处理日常的多语言客户服务、市场营销内容本地化等场景,具有极高的成本效益。
- 如果条件允许,可采用“SFT → GRPO-SFT”的两步策略。 在GRPO阶段,建议使用较高的裁剪值,避免KL散度惩罚,并保持适度的rollout次数。同时,务必监控语言一致性指标,确保不会出现退步。这种策略有助于在保证语言一致性的前提下,进一步提升模型在复杂任务中的准确性。
- 模型融合(Model Merging)是一种兼具实用性和计算效率的有效方法。 通过对不同SFT模型进行融合,可以有效平滑性能曲线,降低单一模型在特定任务或语言上的风险。这对于需要在多种语言和多领域任务之间寻求平衡,且资源有限的跨境团队而言,是一个值得考虑的“一站式”解决方案。
- 对于医学或其他叙述性较强的专业领域,建议添加少量领域特定奖励或几十条规模的领域SFT数据。 这能帮助模型更好地理解和运用专业词汇、逻辑和风格,确保输出内容的专业性和准确性。对于跨境医疗服务、专业技术文档翻译等场景尤为重要。
- 针对日语(或任何非拉丁语系脚本),在处理数字和风格时,应包含规范化的模板,并可选择通过格式化来修补分词问题。 跨语言的数字、标点和格式差异,往往是导致模型出错的隐蔽因素。提前进行标准化处理,能有效提升模型在这些语言中的推理稳定性。
- 在评估模型性能时,始终关注帕累托前沿,而非单一指标。 务必将准确率和语言一致性放在一起考量,真正的进步体现在两者都能“向上向右”移动。对于跨境业务而言,仅有高准确率而缺乏语言一致性,或反之,都无法满足实际需求。
研究局限与未来展望
本次研究基于四个知名基准数据集进行,但实际应用中的提示词可能更为复杂和嘈杂。此外,仅针对数学任务的强化学习可能损害非数学任务的表现,尽管我们提出了缓解方案,但其在所有医学细分领域的普适性仍需进一步验证。模型的英文和中文先验主导地位也影响了结果,若基础模型具有不同的先验(如以欧盟语言为中心),则最困难的语言组合可能会发生变化。最后,语言一致性指标虽强且能感知脚本,但仍是自动化代理,人类评估者可能会提出更严格的要求。
新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。
本文来源:新媒网 https://nmedialink.com/posts/llm-multi-lang-sft-22-acc-boost.html


粤公网安备 44011302004783号 













