金融AI降本提速！LLM精简：参数减数十倍，精度不减！

在全球经济数字化转型的浪潮中，人工智能技术，特别是大型语言模型（LLMs），正日益成为驱动金融行业创新与发展的重要引擎。从量化投资策略的生成、自动化市场报告分析到精准的风险预测，LLMs展现出前所未有的潜力。然而，在实际应用中，其高昂的运行成本、推理延迟以及复杂的集成过程，也为许多寻求技术升级的金融机构带来了不小的挑战。尤其是在瞬息万变的全球跨境金融市场中，如何能够持续高效地对模型进行微调、精简和部署，以快速适应不断演进的数据源并捕捉市场信号，成为了保持竞争优势的关键。正是在这样的背景下，模型精简（Model Distillation）技术及其在金融数据工作流中的创新应用，为我们提供了一个务实且高效的解决方案。

什么是金融数据中的AI模型精简技术？

模型精简，也被称为知识蒸馏，是一种核心技术，旨在将大型、高性能的“教师模型”所掌握的知识，系统性地迁移到一个规模更小、但效率更高的“学生模型”中。通过这一过程，学生模型在保持对特定领域任务高精度的同时，能够实现更快的推理速度、显著降低资源消耗，并支持在边缘计算或混合云环境中灵活部署。这对于金融行业而言意义重大，意味着可以通过更轻量化、更专业的模型，高效应对复杂的市场分析和决策需求。
Decorative image.

图1：循环数据飞轮AI工作流，展示了将大型模型压缩为更小、更高效版本以供企业部署的七个阶段。

该技术能够将一个包含490亿或700亿参数的教师模型的能力，精简至一个更小规模、定制化的学生模型中（例如，本案例中的10亿、30亿或80亿参数模型）。具体实践中，我们通常会通过一个多类别分类问题来演示这一过程：利用教师模型为数据集生成标签，随后使用这些带标签的数据集来定制学生模型。

通过这样的技术框架，团队可以实现以下目标：

将大型语言模型精简为高效的金融文本领域专用版本，有效降低推理延迟和成本，同时保持目标精度。
通过实现交易信号的快速迭代和评估，加速回溯测试和策略评估过程，并随着市场条件和数据源的变化，持续维护模型精度。
通过内置的实验跟踪功能，便利模型评估，确保系统的可扩展性和可观测性。
将精简后的模型与现有NIM（NVIDIA Inference Microservices）一同部署到本地、混合云以及边缘环境的金融AI工作流中。

这些能力使得轻量化、专业化的模型能够直接融入金融研究管线、交易系统或边缘推理环境中，从而提升整体运营效率和响应速度。

这项技术如何运作？

该系统提供了一套可复用的方法论，基于NVIDIA数据飞轮蓝图（NVIDIA Data Flywheel Blueprint）进行精简模型的实验和训练。该蓝图的核心是飞轮编排器，它作为一个统一的控制平面，屏蔽了与NVIDIA NeMo微服务直接交互的复杂性。编排器API作为飞轮系统的大脑，通过利用一系列模块化的NeMo微服务来协调数据飞轮任务：

NVIDIA NeMo 定制器 (Customizer)：负责处理基于LoRA（低秩适应）的轻量级微调任务。
NVIDIA NeMo 评估器 (Evaluator)：自动化跨运行的评估过程。
NeMo 数据存储 (Datastore)：管理结构化数据集和工件。
NeMo 部署管理器 (Deployment manager)：动态启动和提供候选精简模型以进行推理。

每个微服务都被打包成Docker容器，以确保在不同环境中的一致性部署。整个工作流通过Kubernetes集成进行编排，确保NIM微服务能够动态地进行实验和生产工作负载的调度。
Architecture diagram for AI Model Distillation for Financial Data developer example showcasing the data flywheel orchestrator and its integration with NVIDIA Nemotron, NVIDIA NeMo microservices, and NVIDIA NIM. It executes experimentation cycles of continuous fine-tuning and evaluation to create smaller, more efficient models - all built on top of the NVIDIA Data Flywheel Blueprint.

图2：AI模型精简在金融数据中的架构图，展示了数据飞轮编排器及其集成。

要启动和运行这一系统，首先需要设置环境并部署必要的服务。具体的操作指南可以参考相关的技术文档。

生成一个个人API密钥，用于拉取Docker容器和资产，以部署NeMo微服务并访问作为NIM托管的开放Nemotron模型。
部署NeMo微服务平台。
安装并配置数据飞轮编排器。

环境准备就绪后，可以通过config.yaml文件配置模型和工作流。值得注意的是，该文件在飞轮服务器启动时加载，并在飞轮运行期间保持静态。若需更新，必须停止服务、修改YAML文件并重新部署。

工作流解析

我们通过一个实际案例来深入了解这个工作流的各个阶段，其中包含关键代码片段和实验输出。通过展示不同的模型配置和数据集规模如何影响性能、效率和准确性，我们可以看到如何迭代优化模型，在成本、模型大小和精度之间找到理想的平衡点。

第一步：数据集标注

我们使用一个包含新闻标题的示例数据集来演示整个工作流。利用教师模型和包含少量示例的提示（这些都与代码一同提供），我们为数据集中的每个标题生成标签。教师模型的主要任务是将这些标题分类到预定义的十三个类别之一。为了进行初步检查和评估大型语言模型的基线性能，我们将其性能与数据集中约1000个人工标注样本的子集进行了比较。以下是三个金融新闻标题及其由教师模型分配的类别示例：

[
  {
    "Headline": "Ultratech Achieves ISO 9001 and 14001 Certification for Singapore Operations and Recertification for U.S. Facility",
    "Classified Category": "Regulatory"
  },
  {
    "Headline": "Mid-Afternoon Market Update: Dow Up Over 200 Points; Lakeland Industries Shares Spike Higher",
    "Classified Category": "Stock price movement"
  },
  {
    "Headline": "Analyst: Chipotle Is Successful Because It Sticks To What Works (Giant, Tasty Burritos)",
    "Classified Category": "Analyst Rating"
  }
]

我们利用数据飞轮蓝图执行了接下来的步骤。

第二步：数据集摄取至飞轮服务器

接下来，我们将数据集摄取到一个Elasticsearch索引中。提示语和教师模型的响应遵循与OpenAI兼容的格式，飞轮服务器利用此格式来运行实验。

{
  "request": {
    "model": "meta/llama-3.3-70b-instruct",
    "messages": [
      {
        "role": "system",
        "content": "You are a financial news classifier."
      },
      {
        "role": "user",
        "content": "USER PROMPT"
      }
    ]
  },
  "response": {
    "choices": [
      {
        "message": {
          "role": "assistant",
          "content": "[[[analyst rating]]]"
        }
      }
    ]
  },
  "workload_id": "news_classifier",
  "client_id": "<DATASET ID>",
  "timestamp": 1760845128
}

此外，在此示例中，我们展示了学生模型无需完整数据集即可通过定制化，达到与教师模型相当的性能。我们将原始数据集分成了更小的分层子集（例如5000、10000和25000个样本）。数据分割的大小以及从多个标签类别（其中一些出现频率较低）进行采样的比例，都可以在config.yaml文件中进行指定，如我们的默认示例所示：

# Data split config: # train, val, eval split sizes and ratios
data_split_config:
  eval_size: 100
  val_ratio: 0.1
  min_total_records: 50
  random_seed: 42
  limit: null # null = use all available records (ingress limit increased to 1GB)
  parse_function_arguments: true # parse function arguments to JSON objects for tool calling records
  stratify_enabled: true # Enable stratified splitting to maintain class balance
  min_samples_per_class: 2 # Minimum samples required per class for stratification
  rare_class_threshold: 1 # Group classes with <= this many samples as 'others'

随后，我们利用飞轮服务器重复执行以下步骤，以针对不同的数据集大小定制和评估模型。

第三步：微调任务

通过NeMo Customizer，我们启动了基于LoRA适配器的监督式微调任务。每个任务都将数据集中的知识精简到适配器中，从而创建出更小、更专注于特定任务的候选模型。用于精简的学生模型需要在config.yaml文件中明确指定。

例如，若要将llama-3.2-1b-instruct模型作为候选学生模型之一，我们需要遵循NeMo微服务模型目录中的命名约定和详细信息来指定其模型名称和具体细节。

nim:
  - model_name: "meta/llama-3.2-1b-instruct"
    model_type: "llm"
    context_length: 8192
    gpus: 1
    pvc_size: 25Gi
    tag: "1.8.3"
    customization_enabled: true
    customizer_configs:
      target: "meta/llama-3.2-1b-instruct@2.0"
      gpus: 1
      max_seq_length: 8192

第四步：评估运行

接下来，我们比较了经过定制和未经定制的学生模型的性能。这通过比较每个候选学生模型的F1分数来完成，具体指标如下：

base-eval：学生模型在定制前的零样本F1分数基线。
customized-eval：定制模型的F1分数评估。

第五步：评分与聚合

模型输出通过NeMo Evaluator进行评分，结果通过编排器API报告回来。我们将这些结果针对不同的学生模型和相应的数据集大小进行聚合分析。

第六步：审查与推广

开发者可以程序化地访问各项指标，下载相关工件，启动后续实验，或者将表现最优的候选模型提升到生产环境，以替代原有的教师NIM。这一循环可以按计划执行或按需触发，从而创建一个自动化、可扩展的系统。该系统能够持续且渐进地生成更小、更快、更具成本效益的模型，同时保持与大型基线模型相同的精度。

成果展示

下表1和图3所示的F1分数，是在一个独立的测试集上进行评估的，其数值是相对于大型教师模型的F1分数计算得出的。在本设定中，教师模型的F1分数被视为衡量标准，所有精简后的学生模型都以此为基准进行比较。

结果清晰地表明，规模较大的学生模型具备更强的学习能力，即使在少量示例的情况下，也能更好地从教师模型的监督中学习并取得更高的分数。随着训练示例数量的增加，每个学生模型的精简模型质量都会提高。当示例数量足够时，它们的F1分数会趋于相似。

这些结果展示了在模型精简过程中，使用更大规模的学生模型和更多训练数据所带来的权衡与潜在收益。在AI模型精简应用于金融数据的实际场景中，数据可用性、硬件限制、推理延迟以及吞吐量等实际因素，都会影响针对特定应用的最佳选择。
F1-score improvement relative to teacher model performance for customized models over increasing dataset sizes for the AI Model Distillation for Financial Data workflow example.

图3：定制模型相对于教师模型性能的F1分数提升，随数据集大小的增加而变化。

训练数据量	模型名称	F1分数
5000	meta/llama-3.2-1b-instruct	0.29
10000	meta/llama-3.2-1b-instruct	0.78
25000	meta/llama-3.2-1b-instruct	0.9
5000	meta/llama-3.2-3b-instruct	0.584
10000	meta/llama-3.2-3b-instruct	0.89
25000	meta/llama-3.2-3b-instruct	0.95
5000	meta/llama-3.1-8b-instruct	0.8
10000	meta/llama-3.1-8b-instruct	0.94
25000	meta/llama-3.1-8b-instruct	0.95

表1：精简学生模型相对于数据集大小的F1分数。F1分数是在不同训练数据集大小下训练的定制模型的表现。

结语

在2025年这个充满变革的时代，金融领域的模型精简技术，使得小型、快速的模型能够达到甚至超越复杂大型模型的性能，从而在不牺牲精度的前提下，显著提升效率和可解释性。通过将知识从大型教师模型有效迁移至轻量级学生模型，AI模型精简在金融数据工作流中的应用，能够帮助跨境金融从业者及相关机构，在特征工程、信号生成、风险管理及市场监控等方面，实现更快的决策响应。面对日益激烈的国际市场竞争和复杂多变的监管环境，国内相关从业人员应持续关注此类前沿技术动态，积极探索其在跨境业务中的落地应用，以技术赋能业务增长，提升全球竞争力。

新媒网（公号: 新媒网跨境发布），是一个专业的跨境电商、游戏、支付、贸易和广告社区平台，为百万跨境人传递最新的海外淘金精准资讯情报。

本文来源：新媒网 https://nmedialink.com/posts/fin-ai-distill-lowers-cost-faster-no-acc-loss.html