Apriel-1.6：AI成本狂降30%！跨境爆款利器！

在2025年的全球科技浪潮中，人工智能的创新步伐持续加速，特别是多模态推理模型，正成为驱动各行各业数字化转型的重要力量。这类模型能够同时理解和处理文本、图像等多种信息形式，其能力边界的拓展，无疑为我们带来了更广阔的应用想象空间。近期，一款名为Apriel-1.6-15b-Thinker的150亿参数多模态推理模型，以其在性能与效率上的平衡表现，引起了业界的广泛关注。

该模型是在Apriel系列中推出的最新成果，它在文本和视觉推理方面实现了显著提升，同时优化了令牌（token）使用效率。这款模型在人工智能分析指数（Artificial Analysis Index）上获得了57分，其表现已与Qwen3 235B等更大型模型旗鼓相当，而参数规模却小得多。与此前的Apriel-1.5-15B-Thinker版本相比，Apriel-1.6在维持或提升各项任务性能的同时，将推理令牌的使用量减少了超过30%，展现了卓越的效率优势。
Artificial Analysis Intelligence Index (30 Nov '25)

模型训练过程概述

Apriel-1.6-15b-Thinker的训练过程沿袭了Apriel-1.5-15B-Thinker的总体框架，包括深度扩展（depth-upscaling）阶段和两个持续预训练（CPT）阶段。在深度扩展阶段，模型利用了来自多样化来源的丰富数据，其中包含高质量的网络内容、科学技术文献、数学问题集和编程代码等，并辅以来自英伟达Nemotron™的高质量数据集以及用于回放的预训练数据。

针对Apriel-1.6版本，研究人员对第一阶段的持续预训练混合数据进行了扩展，旨在强化模型的文本推理和图像理解能力。这一阶段新增了纯文本样本和图文对，其中纯文本数据完全由合成方式生成，涵盖了通用推理、知识问答、编程及创意写作等领域。多模态部分则涉及文档和图表理解、光学字符识别（OCR）、视觉推理任务以及SVG/网页代码合成。

在第一阶段之后，模型还进行了长达49K序列长度的纯文本持续预训练，随后进入第二阶段，进一步精炼其视觉推理能力。这种训练组合构建了一个强大的基础模型，为后续的后期训练奠定了坚实基础。整个中期训练过程在英伟达GB200超级芯片上耗费了大约10,000个GPU小时，通过精细的数据策略和训练方法，实现了在有限计算资源下构建高性能模型的目标。

模型后期训练方法

在中期训练模型的基础上，Apriel-1.6进行了后期训练，该阶段融合了大规模的监督微调（SFT）和强化学习（RL）技术，以同时提升模型的视觉和文本处理能力。

监督微调（SFT）

监督微调阶段旨在通过利用精心策划的240万个高信噪比文本样本，提升Apriel-1.6的推理质量。每个样本都包含了明确的、分步的推理过程，这有助于模型内化透明的推理机制，而非仅仅复现最终答案。

为构建这个庞大的数据集，研究人员整合了数学、编程和科学问题解决等领域中可验证的合成样本，并结合了广泛的指令遵循、对话、API/函数调用、创意写作、安全以及其他知识密集型样本。数据质量被视为首要任务，每个样本都经过了多阶段的去重、内容过滤、启发式质量修剪、LLM作为评判者的验证、基于执行的验证（适用时）以及严格的评估基准去污染处理。

监督微调分两个阶段进行，均在32K的上下文长度下训练。第一阶段，模型针对240万个样本进行了4个周期的纯文本大规模训练。相较于Apriel-1.5-15b-Thinker，研发团队简化了聊天模板，移除了冗余标签，并引入了四个特殊令牌（<tool_calls>、</tool_calls>、[BEGIN FINAL RESPONSE]、<|end|>）以简化输出解析。第二阶段是轻量级多模态训练，进行3个周期，利用Apriel-1.5-15b-Thinker的拒绝采样数据，确保模型在引入这些特殊令牌后仍能保持强大的图像输入性能，并为后续的强化学习阶段做好准备。这种方法为强化学习管线提供了强大而高质量的监督微调基础，使模型展现出强大的多模态理解能力、改进的文本推理能力和增强的代理行为。

强化学习（RL）

该模型采用了多阶段强化学习设置，同时关注推理能力和效率的提升。模型在视觉推理、通用视觉问答（VQA）和光学字符识别（OCR）等图像领域进行了训练。训练数据还涵盖了不同领域，例如简单问题（鼓励对简单查询提供简短直接的回答）、数学（数值推理）、STEM（多项选择科学问题）以及函数调用（结构化工具使用）。

模型根据回答的正确性获得奖励，同时对冗长、格式不正确等不良行为进行惩罚。总体而言，这种设置旨在提升模型的推理能力，同时减少推理令牌的使用，鼓励模型避免不必要的中间步骤，在自信时提前停止，并对简单查询更直接地回答。训练使用了群序列策略优化（GSPO）损失函数和基于规则的验证方法。

模型性能评估

Apriel-1.6在工具使用、数学、编程、指令遵循和长文本处理等多个领域进行了评估。以下表格展示了其在文本基准测试中的具体表现，部分得分由人工智能分析机构提供。

类别	基准测试	Apriel-1.6-15B-Thinker	Apriel-1.5-15B-Thinker	GPT OSS 120B	DeepSeek R1 0528	Gemini 2.5 Flash (Sep)	GPT 5 mini (high)	Claude 4.5 Sonnet (thinking)	o3-mini (high)
平均得分**		53.22	46.56	52.56	51.92	50.71	62.58	60.37	48.85
函数调用	BFCL v3 only	63.50	51.88	50.62	39.75	39.75	17.62	-	50
	Tau2 bench Telecom	69	57.8	66	37	32	68	50.8	31
	Tau2 bench Retail	66.67	46.78	61.4	59.94	61.69	73.39	69.8	75.73
	Tau2 bench Airline	58	52	45.3	47.33	56.66	59.33	58	61.33
	ComplexFuncBench	33.2	19	24.6	24.2	26.3	37.5	24.6	18.9
指令遵循	Agent IF	57.2	55	54.20	52.20	49.70	57.60	54.50	54.90
	Multi IF	83.34	76.91	82.95	73.76	82.49	85.37	84.32	87.28
	Multi-Challenge	46.15	41.39	46.90	44.50	49.08	57.90	42.49	38.46
	IF Bench	69	62	69	40	50	75	57	70.07
数学	AIME 25	88	88	93	76	73	91	88	86.67
编程	Struct Eval	79	48.50	71	73	70	69.92	76	73
	LCB	81	73	88	77	70	84	71	73
	SciCode	37	35	39	40	41	39	45	40
代理行为	DeepresearchBench	36.47	32.73	36.30	34.19	38.15	-	-	33.40
	GAIA	40	30.91	21.21	32.12	47.88	65.45	69.09	23.03
	Work-Arena L1	50.2	51.5	50.9	63.9	51.8	65.5	62.7	52.4
	OS World Small	16.70	13.90	16.70	25	19.40	22.20	30.60	19.40
	SWE Bench Verified	23	16	31	29.60	34.20	61	64.2	22.60
	Terminal Bench	14	10	22	15	13	31	33	5.67
	Aider Polyglot	37.68	26.37	42	71.40	40	71.60	78	60.40
知识	MMLU Pro	79	77	81	85	83	84	88	80
创意写作	Creative writing v3 / EQ Bench	59.73	60.24	53.70	79.40	74.25	75.25	80.70	30.40
其他	GPQA Diamond	73	71	78	81	79	83	83	77
	HLE	10	12	18.5	14.9	11.1	19.7	17.3	12.3
长文本	AA LCR 50*	20	51	55	62	68	66	30***

*此得分是在启用DCA的情况下获得的。若未启用，模型得分为36。
**平均得分通过除BFCL v3 Only和DeepResearchBench之外的所有基准测试计算得出，因为部分模型没有这两项基准的得分。
*** o3-mini-high的AA LCR得分是基于其AA指数得分的预测值。

从文本评估结果看，Apriel-1.6-15B-Thinker在函数调用、指令遵循、数学、编程、代理行为、知识问答、创意写作和长文本处理等多个关键领域表现出显著进步。尤其在函数调用、编程的Struct Eval和Aider Polyglot测试中，其得分相比前一版本有明显提升，显示了模型在处理复杂指令和代码方面的强大能力。尽管在某些特定长文本任务上得分略有波动，但总体表现稳定，平均得分达到53.22，展现了其作为一款先进多模态模型的综合实力。

图像能力评估

Apriel-1.6模型在多项图像评估任务中展现了其能力，主要集中在数学推理、视觉问答、逻辑推理、科学、技术、工程和数学（STEM）相关任务以及基于图表的推理。所有评估均通过VLMEvalkit进行。与前一版本相比，Apriel-1.6在图像指数的13项基准测试（包括MathVision, MathVista, MMMU (validation), MMMU-Pro (10 choice COT), MMMU-Pro (Vision only COT), MathVerse (Vision Dominant), MathVerse (Text Dominant), MMStar, BLINK, LogicVista, CharXiV (descriptive), CharXiV (reasoning), AI2D (test)）平均得分提升了4分。
Performance on the Image Index

成本效益前沿性能分析

Intelligence vs Total Parameters (30 Nov '25)

Apriel-1.6-15B-Thinker在成本效益前沿曲线中占据了一个理想位置。它以相对较小的150亿参数规模，提供了与大型模型相媲美甚至超越的智能得分。在性能与总参数量的对比图中，该模型稳居“最具吸引力”的象限，实现了效率与顶级推理能力的良好平衡。这表明，Apriel-1.6-15B-Thinker在实际应用中，能够以远低于许多重量级竞争模型的计算和部署成本，提供强大的性能和深入的推理能力，尤其对于企业级应用而言，其高效率特性使其成为一个非常具有吸引力的选择。
Intelligence vs Output Tokens Used in Artificial Analysis Intelligence Index (30 Nov '25)

模型后期训练的一个重要目标是提升推理令牌使用效率。上图展示了智能得分与人工智能分析指数中输出令牌使用量的关系，这清晰地反映了后期训练的有效性。Apriel-1.6-15B-Thinker再次落入最具吸引力的象限。该模型在达到较高的人工智能分析指数得分的同时，所使用的令牌数量远低于许多能力相似或规模更大的模型。与此前的Apriel-1.5-15b-Thinker版本相比，新版本将令牌使用量减少了30%以上。整体而言，Apriel-1.6是一个功能强大的推理模型，同时保持了企业部署所需的记忆和效率特性。

模型局限与展望

在模型开发过程中，研究团队在有限资源下致力于实现卓越性能，并提升推理令牌效率。虽然Apriel-1.6-15B-Thinker在许多方面表现出色，但作为一项复杂的工程，仍存在一些可改进之处。

在视觉处理方面，该模型对某些特定类型的图像可能存在局限性。例如，复杂或低质量的图像可能会降低光学字符识别（OCR）的准确性；密集场景（如人群或许多相似物体）可能使其在识别细微细节和计数方面更具挑战性；高度详细或格式异常的图表，偶尔也可能导致解释不够精确。此外，在精细的视觉定位方面，模型的精确度可能略低，因此边界框预测有时会近似或不够一致。

模型研发团队正持续努力，旨在未来的版本中，进一步提升模型的效率和简洁性。随着技术的不断演进，相信这些局限将逐步得到解决，多模态AI模型将更好地服务于各类实际应用。

对于中国的跨境行业从业者而言，此类先进的多模态AI模型具备巨大的应用潜力。无论是跨境电商的产品详情页生成、智能客服处理图文并茂的咨询、还是通过视觉分析优化海外市场营销内容，以及利用高效推理能力进行市场趋势洞察和风险评估，Apriel-1.6-15b-Thinker所展现的强大能力和高效率，都值得我们密切关注和深入研究其在实际业务场景中的落地可能性。

新媒网（公号: 新媒网跨境发布），是一个专业的跨境电商、游戏、支付、贸易和广告社区平台，为百万跨境人传递最新的海外淘金精准资讯情报。

本文来源：新媒网 https://nmedialink.com/posts/apriel-16-ai-cost-30-down-cross-border-edge.html