Apriel-1.6:AI成本狂降30%!跨境爆款利器!

在2025年的全球科技浪潮中,人工智能的创新步伐持续加速,特别是多模态推理模型,正成为驱动各行各业数字化转型的重要力量。这类模型能够同时理解和处理文本、图像等多种信息形式,其能力边界的拓展,无疑为我们带来了更广阔的应用想象空间。近期,一款名为Apriel-1.6-15b-Thinker的150亿参数多模态推理模型,以其在性能与效率上的平衡表现,引起了业界的广泛关注。
该模型是在Apriel系列中推出的最新成果,它在文本和视觉推理方面实现了显著提升,同时优化了令牌(token)使用效率。这款模型在人工智能分析指数(Artificial Analysis Index)上获得了57分,其表现已与Qwen3 235B等更大型模型旗鼓相当,而参数规模却小得多。与此前的Apriel-1.5-15B-Thinker版本相比,Apriel-1.6在维持或提升各项任务性能的同时,将推理令牌的使用量减少了超过30%,展现了卓越的效率优势。
模型训练过程概述
Apriel-1.6-15b-Thinker的训练过程沿袭了Apriel-1.5-15B-Thinker的总体框架,包括深度扩展(depth-upscaling)阶段和两个持续预训练(CPT)阶段。在深度扩展阶段,模型利用了来自多样化来源的丰富数据,其中包含高质量的网络内容、科学技术文献、数学问题集和编程代码等,并辅以来自英伟达Nemotron™的高质量数据集以及用于回放的预训练数据。
针对Apriel-1.6版本,研究人员对第一阶段的持续预训练混合数据进行了扩展,旨在强化模型的文本推理和图像理解能力。这一阶段新增了纯文本样本和图文对,其中纯文本数据完全由合成方式生成,涵盖了通用推理、知识问答、编程及创意写作等领域。多模态部分则涉及文档和图表理解、光学字符识别(OCR)、视觉推理任务以及SVG/网页代码合成。
在第一阶段之后,模型还进行了长达49K序列长度的纯文本持续预训练,随后进入第二阶段,进一步精炼其视觉推理能力。这种训练组合构建了一个强大的基础模型,为后续的后期训练奠定了坚实基础。整个中期训练过程在英伟达GB200超级芯片上耗费了大约10,000个GPU小时,通过精细的数据策略和训练方法,实现了在有限计算资源下构建高性能模型的目标。
模型后期训练方法
在中期训练模型的基础上,Apriel-1.6进行了后期训练,该阶段融合了大规模的监督微调(SFT)和强化学习(RL)技术,以同时提升模型的视觉和文本处理能力。
监督微调(SFT)
监督微调阶段旨在通过利用精心策划的240万个高信噪比文本样本,提升Apriel-1.6的推理质量。每个样本都包含了明确的、分步的推理过程,这有助于模型内化透明的推理机制,而非仅仅复现最终答案。
为构建这个庞大的数据集,研究人员整合了数学、编程和科学问题解决等领域中可验证的合成样本,并结合了广泛的指令遵循、对话、API/函数调用、创意写作、安全以及其他知识密集型样本。数据质量被视为首要任务,每个样本都经过了多阶段的去重、内容过滤、启发式质量修剪、LLM作为评判者的验证、基于执行的验证(适用时)以及严格的评估基准去污染处理。
监督微调分两个阶段进行,均在32K的上下文长度下训练。第一阶段,模型针对240万个样本进行了4个周期的纯文本大规模训练。相较于Apriel-1.5-15b-Thinker,研发团队简化了聊天模板,移除了冗余标签,并引入了四个特殊令牌(<tool_calls>、</tool_calls>、[BEGIN FINAL RESPONSE]、<|end|>)以简化输出解析。第二阶段是轻量级多模态训练,进行3个周期,利用Apriel-1.5-15b-Thinker的拒绝采样数据,确保模型在引入这些特殊令牌后仍能保持强大的图像输入性能,并为后续的强化学习阶段做好准备。这种方法为强化学习管线提供了强大而高质量的监督微调基础,使模型展现出强大的多模态理解能力、改进的文本推理能力和增强的代理行为。
强化学习(RL)
该模型采用了多阶段强化学习设置,同时关注推理能力和效率的提升。模型在视觉推理、通用视觉问答(VQA)和光学字符识别(OCR)等图像领域进行了训练。训练数据还涵盖了不同领域,例如简单问题(鼓励对简单查询提供简短直接的回答)、数学(数值推理)、STEM(多项选择科学问题)以及函数调用(结构化工具使用)。
模型根据回答的正确性获得奖励,同时对冗长、格式不正确等不良行为进行惩罚。总体而言,这种设置旨在提升模型的推理能力,同时减少推理令牌的使用,鼓励模型避免不必要的中间步骤,在自信时提前停止,并对简单查询更直接地回答。训练使用了群序列策略优化(GSPO)损失函数和基于规则的验证方法。
模型性能评估
Apriel-1.6在工具使用、数学、编程、指令遵循和长文本处理等多个领域进行了评估。以下表格展示了其在文本基准测试中的具体表现,部分得分由人工智能分析机构提供。
| 类别 | 基准测试 | Apriel-1.6-15B-Thinker | Apriel-1.5-15B-Thinker | GPT OSS 120B | DeepSeek R1 0528 | Gemini 2.5 Flash (Sep) | GPT 5 mini (high) | Claude 4.5 Sonnet (thinking) | o3-mini (high) |
|---|---|---|---|---|---|---|---|---|---|
| 平均得分** | 53.22 | 46.56 | 52.56 | 51.92 | 50.71 | 62.58 | 60.37 | 48.85 | |
| 函数调用 | BFCL v3 only | 63.50 | 51.88 | 50.62 | 39.75 | 39.75 | 17.62 | - | 50 |
| Tau2 bench Telecom | 69 | 57.8 | 66 | 37 | 32 | 68 | 50.8 | 31 | |
| Tau2 bench Retail | 66.67 | 46.78 | 61.4 | 59.94 | 61.69 | 73.39 | 69.8 | 75.73 | |
| Tau2 bench Airline | 58 | 52 | 45.3 | 47.33 | 56.66 | 59.33 | 58 | 61.33 | |
| ComplexFuncBench | 33.2 | 19 | 24.6 | 24.2 | 26.3 | 37.5 | 24.6 | 18.9 | |
| 指令遵循 | Agent IF | 57.2 | 55 | 54.20 | 52.20 | 49.70 | 57.60 | 54.50 | 54.90 |
| Multi IF | 83.34 | 76.91 | 82.95 | 73.76 | 82.49 | 85.37 | 84.32 | 87.28 | |
| Multi-Challenge | 46.15 | 41.39 | 46.90 | 44.50 | 49.08 | 57.90 | 42.49 | 38.46 | |
| IF Bench | 69 | 62 | 69 | 40 | 50 | 75 | 57 | 70.07 | |
| 数学 | AIME 25 | 88 | 88 | 93 | 76 | 73 | 91 | 88 | 86.67 |
| 编程 | Struct Eval | 79 | 48.50 | 71 | 73 | 70 | 69.92 | 76 | 73 |
| LCB | 81 | 73 | 88 | 77 | 70 | 84 | 71 | 73 | |
| SciCode | 37 | 35 | 39 | 40 | 41 | 39 | 45 | 40 | |
| 代理行为 | DeepresearchBench | 36.47 | 32.73 | 36.30 | 34.19 | 38.15 | - | - | 33.40 |
| GAIA | 40 | 30.91 | 21.21 | 32.12 | 47.88 | 65.45 | 69.09 | 23.03 | |
| Work-Arena L1 | 50.2 | 51.5 | 50.9 | 63.9 | 51.8 | 65.5 | 62.7 | 52.4 | |
| OS World Small | 16.70 | 13.90 | 16.70 | 25 | 19.40 | 22.20 | 30.60 | 19.40 | |
| SWE Bench Verified | 23 | 16 | 31 | 29.60 | 34.20 | 61 | 64.2 | 22.60 | |
| Terminal Bench | 14 | 10 | 22 | 15 | 13 | 31 | 33 | 5.67 | |
| Aider Polyglot | 37.68 | 26.37 | 42 | 71.40 | 40 | 71.60 | 78 | 60.40 | |
| 知识 | MMLU Pro | 79 | 77 | 81 | 85 | 83 | 84 | 88 | 80 |
| 创意写作 | Creative writing v3 / EQ Bench | 59.73 | 60.24 | 53.70 | 79.40 | 74.25 | 75.25 | 80.70 | 30.40 |
| 其他 | GPQA Diamond | 73 | 71 | 78 | 81 | 79 | 83 | 83 | 77 |
| HLE | 10 | 12 | 18.5 | 14.9 | 11.1 | 19.7 | 17.3 | 12.3 | |
| 长文本 | AA LCR 50* | 20 | 51 | 55 | 62 | 68 | 66 | 30*** |
*此得分是在启用DCA的情况下获得的。若未启用,模型得分为36。
**平均得分通过除BFCL v3 Only和DeepResearchBench之外的所有基准测试计算得出,因为部分模型没有这两项基准的得分。
*** o3-mini-high的AA LCR得分是基于其AA指数得分的预测值。
从文本评估结果看,Apriel-1.6-15B-Thinker在函数调用、指令遵循、数学、编程、代理行为、知识问答、创意写作和长文本处理等多个关键领域表现出显著进步。尤其在函数调用、编程的Struct Eval和Aider Polyglot测试中,其得分相比前一版本有明显提升,显示了模型在处理复杂指令和代码方面的强大能力。尽管在某些特定长文本任务上得分略有波动,但总体表现稳定,平均得分达到53.22,展现了其作为一款先进多模态模型的综合实力。
图像能力评估
Apriel-1.6模型在多项图像评估任务中展现了其能力,主要集中在数学推理、视觉问答、逻辑推理、科学、技术、工程和数学(STEM)相关任务以及基于图表的推理。所有评估均通过VLMEvalkit进行。与前一版本相比,Apriel-1.6在图像指数的13项基准测试(包括MathVision, MathVista, MMMU (validation), MMMU-Pro (10 choice COT), MMMU-Pro (Vision only COT), MathVerse (Vision Dominant), MathVerse (Text Dominant), MMStar, BLINK, LogicVista, CharXiV (descriptive), CharXiV (reasoning), AI2D (test))平均得分提升了4分。
成本效益前沿性能分析

Apriel-1.6-15B-Thinker在成本效益前沿曲线中占据了一个理想位置。它以相对较小的150亿参数规模,提供了与大型模型相媲美甚至超越的智能得分。在性能与总参数量的对比图中,该模型稳居“最具吸引力”的象限,实现了效率与顶级推理能力的良好平衡。这表明,Apriel-1.6-15B-Thinker在实际应用中,能够以远低于许多重量级竞争模型的计算和部署成本,提供强大的性能和深入的推理能力,尤其对于企业级应用而言,其高效率特性使其成为一个非常具有吸引力的选择。
模型后期训练的一个重要目标是提升推理令牌使用效率。上图展示了智能得分与人工智能分析指数中输出令牌使用量的关系,这清晰地反映了后期训练的有效性。Apriel-1.6-15B-Thinker再次落入最具吸引力的象限。该模型在达到较高的人工智能分析指数得分的同时,所使用的令牌数量远低于许多能力相似或规模更大的模型。与此前的Apriel-1.5-15b-Thinker版本相比,新版本将令牌使用量减少了30%以上。整体而言,Apriel-1.6是一个功能强大的推理模型,同时保持了企业部署所需的记忆和效率特性。
模型局限与展望
在模型开发过程中,研究团队在有限资源下致力于实现卓越性能,并提升推理令牌效率。虽然Apriel-1.6-15B-Thinker在许多方面表现出色,但作为一项复杂的工程,仍存在一些可改进之处。
在视觉处理方面,该模型对某些特定类型的图像可能存在局限性。例如,复杂或低质量的图像可能会降低光学字符识别(OCR)的准确性;密集场景(如人群或许多相似物体)可能使其在识别细微细节和计数方面更具挑战性;高度详细或格式异常的图表,偶尔也可能导致解释不够精确。此外,在精细的视觉定位方面,模型的精确度可能略低,因此边界框预测有时会近似或不够一致。
模型研发团队正持续努力,旨在未来的版本中,进一步提升模型的效率和简洁性。随着技术的不断演进,相信这些局限将逐步得到解决,多模态AI模型将更好地服务于各类实际应用。
对于中国的跨境行业从业者而言,此类先进的多模态AI模型具备巨大的应用潜力。无论是跨境电商的产品详情页生成、智能客服处理图文并茂的咨询、还是通过视觉分析优化海外市场营销内容,以及利用高效推理能力进行市场趋势洞察和风险评估,Apriel-1.6-15b-Thinker所展现的强大能力和高效率,都值得我们密切关注和深入研究其在实际业务场景中的落地可能性。
新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。
本文来源:新媒网 https://nmedialink.com/posts/apriel-16-ai-cost-30-down-cross-border-edge.html


粤公网安备 44011302004783号 











