L3.1模型微调实操：4小时极速搞定专属出海LLM！

Llama 3.1的发布，无疑在大型语言模型（LLM）领域投下了一颗重磅炸弹。它卓越的性能，让开源模型与闭源模型的差距越来越小。对于我们中国的跨境出海人来说，这意味着什么？新媒网跨境获悉，我们不再仅仅依赖像GPT-4o或Claude 3.5这类通用型大模型，而是可以根据自己的业务场景，对Llama 3.1进行精细化微调，打造专属模型。这不仅能带来更优异的业务表现，还能有效降低运营成本，大幅提升我们的市场竞争力。
图片说明

今天，我将作为你的跨境实战导师，带大家深入了解监督式微调（Supervised Fine-Tuning，简称SFT）。我们会对比它与提示工程（Prompt Engineering）的差异，明确何时选择SFT。接着，我会详细解读SFT的核心技术，特别是LoRA参数、存储格式和聊天模板等关键概念。最后，我们将在谷歌Colab平台上，利用Unsloth的尖端优化技术，实战微调Llama 3.1 8B模型，让大家亲手掌握这项技能。文章中所涉及的所有代码，都已整合在谷歌Colab和我们LLM课程中，方便大家随时学习和查阅。在此，特别感谢Daniel Han，他为我解答了许多疑问。

监督式微调（SFT）的实战应用

图片说明

监督式微调（SFT）是一种行之有效的方法，能够显著提升和定制预训练大型语言模型的性能。简单来说，它就是在预训练模型的基础上，通过小规模的指令与答案数据集进行再训练。核心目标是将一个普通的文本预测模型，转变为一个能够精准理解指令、高效回答问题的智能助手。

SFT的价值远不止于此，它还能全方位优化模型的整体表现，为其注入特定领域的知识，使其更好地适应我们的跨境业务场景和特定任务。经过SFT的模型，还可以选择性地进行偏好对齐（例如通过DPO技术），进一步规避不当回复，调整输出风格，让模型更符合我们的预期。

下面这张图展示了一个指令样本，它包含了引导模型行为的系统提示（System Prompt），明确任务的用户提示（User Prompt），以及模型应生成的预期输出（Output）。各位可以自行查阅“💾 LLM Datasets GitHub”仓库，那里有许多高质量的开源指令数据集，对我们很有帮助。
图片说明

在考虑SFT之前，我通常会建议大家先尝试提示工程（Prompt Engineering）技巧，比如少样本提示（Few-shot Prompting）或检索增强生成（RAG）。在许多实际场景中，这些方法就能在无需微调的情况下解决大部分问题，无论是使用闭源模型还是Llama 3.1 Instruct等开源模型，都值得一试。如果这些方法在质量、成本、延迟等方面仍无法满足我们的业务需求，那么当有高质量的指令数据可用时，SFT无疑是一个非常有前景的选择。

值得一提的是，SFT还能提供更强的控制力和定制化能力，帮助我们打造个性化的专属大模型。然而，SFT并非万能。它最擅长的是利用基础模型已有的知识，学习全新的、与基础模型知识结构不符的信息（比如一门完全陌生的语言）会面临挑战，可能导致模型出现更多的“幻觉”。对于基础模型不了解的全新领域，我们通常建议先进行持续预训练，让模型先学习原始数据。

另一方面，对于已经经过指令微调的模型（即Instruct模型），它们可能已经非常接近我们的需求了。例如，一个模型表现出色，但它可能会说自己是由OpenAI公司或Meta公司训练的，而不是由我们自己的团队训练的。在这种情况下，我们可以通过偏好对齐（Preference Alignment）来微调模型的行为。通过提供少量（通常是100到1000个样本）的“选择（chosen）”和“拒绝（rejected）”样本，我们可以让大模型学会说是由我们训练的，而不是其他公司。这对于建立品牌认知和技术自主性至关重要。

SFT技术深度解析

目前最常用的三种SFT技术是：全量微调（Full Fine-tuning）、LoRA和QLoRA。
图片说明

全量微调是最直接的SFT方法。它会重新训练预训练模型的所有参数，使其适应指令数据集。这种方法通常能获得最好的效果，但对计算资源的要求极高。以8B模型为例，可能需要数个高端GPU才能完成。同时，由于它修改了模型的全部参数，也可能导致模型“遗忘”之前习得的技能和知识，我们称之为“灾难性遗忘”。

**低秩适应（LoRA）**是一种非常流行的参数高效微调技术。它不是重新训练整个模型，而是冻结模型的原始权重，并在每个目标层引入小的“适配器”（低秩矩阵）。这使得LoRA能够以远低于全量微调的参数量（通常少于1%）进行训练，大幅减少内存占用和训练时间。由于原始参数被冻结，这种方法是非破坏性的，并且适配器可以灵活切换或组合使用，极具弹性。

**QLoRA（量化感知低秩适应）**是LoRA的进一步优化，它在内存节省方面更进一步。相比标准的LoRA，QLoRA能够额外节省高达33%的内存，这对于GPU内存受限的场景尤为实用。当然，这种效率提升也伴随着训练时间的增加，QLoRA通常比标准LoRA多耗时约39%。尽管训练时间稍长，但其巨大的内存优势使得QLoRA在GPU内存稀缺时，成为唯一可行的方案。正因如此，在接下来实战环节中，我们将在谷歌Colab上使用QLoRA来微调Llama 3.1 8B模型，让大家感受它的强大。

实战：高效微调Llama 3.1 8B模型

为了高效微调Llama 3.1 8B模型，我们将利用由Daniel Han和Michael Han开发的Unsloth库。得益于其定制化的内核优化，Unsloth能够提供比其他方案快2倍的训练速度，同时将内存使用量降低60%，这对于Colab这样资源有限的环境来说，简直是雪中送炭。不过，目前Unsloth仅支持单GPU设置。如果你的项目需要多GPU环境，我推荐大家考虑使用TRL或Axolotl等流行替代方案，它们同样支持Unsloth作为后端。

在本次实战中，我们将使用QLoRA技术，对mlabonne/FineTome-100k数据集进行微调。这个数据集是arcee-ai/The-Tome的一个子集，经过我使用HuggingFaceFW/fineweb-edu-classifier重新筛选（当然，这个分类器并非专为指令数据质量评估设计，但可以作为粗略的参考）。最终形成的FineTome数据集是一个超高质量的数据集，其中包含了对话、推理问题、函数调用等多种内容，非常适合我们进行微调学习。

我们先从安装必要的库开始。

!pip install "unsloth\[colab-new] @ git+https://github.com/unslothai/unsloth.git"
!pip install --no-deps "xformers<0.0.27" "trl<0.9.0" peft accelerate bitsandbytes

安装完成后，我们按照如下方式导入它们。

import torch
from trl import SFTTrainer
from datasets import load_dataset
from transformers import TrainingArguments, TextStreamer
from unsloth.chat_templates import get_chat_template
from unsloth import FastLanguageModel, is_bfloat16_supported

现在，我们来加载模型。由于我们计划使用QLoRA，我特意选择了预量化过的unsloth/Meta-Llama-3.1-8B-bnb-4bit模型。这个4位精度版本的模型，相较于原始的16位精度模型（16GB），体积显著减小（仅5.4GB），下载速度也更快。我们将使用bitsandbytes库以NF4格式加载。在加载模型时，我们必须指定一个最大序列长度，这会限制模型的上下文窗口。虽然Llama 3.1支持高达128k的上下文长度，但在本例中，我们将其设置为2,048，因为更长的上下文会消耗更多的计算资源和显存。最后，dtype参数会自动检测你的GPU是否支持BF16格式，以在训练过程中提供更高的稳定性（此功能仅限于Ampere及更新的GPU）。

max_seq_length = 2048
model, tokenizer = FastLanguageModel.from_pretrained(
    model_name="unsloth/Meta-Llama-3.1-8B-bnb-4bit",
    max_seq_length=max_seq_length,
    load_in_4bit=True,
    dtype=None,
)

模型现在已成功以4位精度加载。接下来，我们需要为参数高效微调（PEFT）做准备，引入LoRA适配器。LoRA有三个核心参数，大家需要重点关注：

秩（Rank，r）：它决定了LoRA矩阵的大小。秩通常从8开始，但可以高达256。较高的秩可以存储更多信息，但会增加LoRA的计算和内存成本。在这里，我们将其设置为16。
Alpha（α）：这是一个缩放因子，用于调整更新的强度。Alpha直接影响适配器的贡献，通常设置为秩值的1倍或2倍。
目标模块（Target Modules）：LoRA可以应用于模型的多个组件，包括注意力机制中的Q、K、V矩阵、输出投影层、前馈网络以及线性输出层。虽然LoRA最初主要聚焦于注意力机制，但实践证明，将其扩展到其他组件也能带来益处。不过，适配的模块越多，可训练参数和内存需求也会相应增加。

在此，我们将秩r设置为16，α设置为16，并尽可能多地覆盖所有线性模块，以最大化微调质量。为了加快训练速度，我们不使用dropout和偏差。此外，我们将采用秩稳定型LoRA（rsLoRA）。它将LoRA适配器的缩放因子调整为与1/√r成比例，而非1/r。这有助于稳定训练过程（特别是对于高秩适配器），并随着秩的增加提高微调性能。梯度检查点（Gradient Checkpointing）将由Unsloth库自动处理，它会将输入和输出嵌入卸载到磁盘，以节省宝贵的显存。

model = FastLanguageModel.get_peft_model(
    model,
    r=16,
    lora_alpha=16,
    lora_dropout=0,
    target_modules=["q_proj", "k_proj", "v_proj", "up_proj", "down_proj", "o_proj", "gate_proj"],
    use_rslora=True,
    use_gradient_checkpointing="unsloth"
)

通过这样的LoRA配置，我们仅训练了80亿参数中的4200万个（占比0.5196%）。这充分展示了LoRA相较于全量微调在效率上的巨大优势。

现在，我们准备加载并处理数据集。指令数据集通常以特定格式存储，例如Alpaca、ShareGPT或OpenAI格式等。首先，我们需要解析这些格式，提取指令和对应的答案。我们选择的mlabonne/FineTome-100k数据集使用了ShareGPT格式，其中包含一个独特的“conversations”列，以JSONL的形式存储消息。与Alpaca等更简单的格式不同，ShareGPT非常适合存储多轮对话，这更接近用户与大型语言模型的实际交互方式。

一旦解析出指令-答案对，我们就需要根据聊天模板对其进行重新格式化。聊天模板是一种规范用户与模型对话结构的方式。它通常包含特殊的标记，用于标识消息的开始和结束、发言者身份等。基础模型本身没有固定的聊天模板，因此我们可以选择任何模板，如ChatML、Llama3或Mistral等。在开源社区中，ChatML模板（最初由OpenAI公司提出）是一个非常流行的选择。它简单地增加了两个特殊标记（<|im_start|>和<|im_end|>）来标识发言者。如果我们将这个模板应用于前面的指令样本，结果如下所示：

<|im_start|>system You are a helpful assistant, who always provide explanation. Think like you are answering to a five year old.<|im_end|>
<|im_start|>user Remove the spaces from the following sentence: It prevents users to suspect that there are some hidden products installed on theirs device. <|im_end|>
<|im_start|>assistant Itpreventsuserstosuspectthattherearesomehiddenproductsinstalledontheirsdevice.<|im_end|>

在接下来的代码块中，我们将解析ShareGPT数据集，通过mapping参数进行映射，并应用ChatML模板。然后，我们将加载并处理整个数据集，将聊天模板应用于每一段对话。

tokenizer = get_chat_template(
    tokenizer,
    mapping={"role": "from", "content": "value", "user": "human", "assistant": "gpt"},
    chat_template="chatml",
)

def apply_template(examples):
    messages = examples["conversations"]
    text = [tokenizer.apply_chat_template(message, tokenize=False, add_generation_prompt=False) for message in messages]
    return {"text": text}

dataset = load_dataset("mlabonne/FineTome-100k", split="train")
dataset = dataset.map(apply_template, batched=True)

现在，我们已准备好为本次微调指定训练参数了。这里，我将简要介绍几个最重要的超参数，它们直接影响模型训练的效果和效率：

学习率（Learning Rate）：它控制着模型参数更新的幅度。学习率过低，训练会缓慢，并可能陷入局部最优；学习率过高，训练可能不稳定甚至发散，导致性能下降。
学习率调度器（LR Scheduler）：它在训练过程中动态调整学习率。通常的做法是前期采用较高的学习率加速收敛，后期逐渐降低以求精细优化。线性（Linear）和余弦（Cosine）调度器是两种最常见的选择。
批处理大小（Batch Size）：在更新模型权重之前，每次处理的样本数量。较大的批处理大小通常能提供更稳定的梯度估计，并可能提升训练速度，但也会占用更多内存。梯度累积（Gradient Accumulation）技术允许我们通过在多次前向/反向传播后才更新模型，来模拟更大的批处理大小。
训练轮次（Num Epochs）：遍历整个训练数据集的完整次数。更多的训练轮次可以让模型更充分地学习数据，可能带来更好的性能。但过多的训练轮次也可能导致过拟合。
优化器（Optimizer）：用于调整模型参数以最小化损失函数的算法。实践中，强烈推荐使用AdamW 8位版本：它在性能上与32位版本相当，但显存占用显著减少。AdamW的Paged版本主要适用于分布式训练场景。
权重衰减（Weight Decay）：一种正则化技术，通过在损失函数中对大权重施加惩罚，帮助防止过拟合。它鼓励模型学习更简单、泛化能力更强的特征。但过度使用权重衰减也可能阻碍模型的有效学习。
预热步数（Warmup Steps）：在训练开始阶段，学习率从一个较小值逐渐增加到初始学习率的过渡期。预热有助于稳定早期训练，特别是在使用大步长学习率或大批处理大小时，它能让模型在进行大幅更新之前，更好地适应数据分布。
打包（Packing）：每个批次都有预定义的序列长度。我们可以在一个批次中组合多个小样本，而不是为每个样本分配一个批次，从而提高训练效率。

这次，我选择在一块A100 GPU（40GB显存）上，利用谷歌Colab平台，对整个数据集（10万条样本）进行了训练。整个训练过程耗时4小时45分钟。当然，你也可以使用显存更小的GPU，并调整批处理大小，但训练速度会慢很多。举例来说，在L4 GPU上大约需要19小时40分钟，而在免费的T4 GPU上，则可能需要惊人的47小时。面对这种情况，新媒网跨境认为，我建议大家可以只加载数据集的一个子集，比如将dataset = load_dataset("mlabonne/FineTome-100k", split="train[:10000]")修改为仅加载1万条样本，以加快训练速度。此外，你也可以考虑使用像Paperspace、RunPod或Lambda Labs等价格更亲民的云GPU提供商。

trainer=SFTTrainer(
    model=model,
    tokenizer=tokenizer,
    train_dataset=dataset,
    dataset_text_field="text",
    max_seq_length=max_seq_length,
    dataset_num_proc=2,
    packing=True,
    args=TrainingArguments(
        learning_rate=3e-4,
        lr_scheduler_type="linear",
        per_device_train_batch_size=8,
        gradient_accumulation_steps=2,
        num_train_epochs=1,
        fp16=not is_bfloat16_supported(),
        bf16=is_bfloat16_supported(),
        logging_steps=1,
        optim="adamw_8bit",
        weight_decay=0.01,
        warmup_steps=10,
        output_dir="output",
        seed=0,
    ),
)
trainer.train()

模型训练完成后，我们来用一个简单的提示词测试一下效果。这并非严格的评估，只是快速检查模型是否存在潜在问题。我们使用FastLanguageModel.for_inference()来获得2倍的推理速度。

model = FastLanguageModel.for_inference(model)

messages = [
    {"from": "human", "value": "Is 9.11 larger than 9.9?"},
]

inputs = tokenizer.apply_chat_template(
    messages,
    tokenize=True,
    add_generation_prompt=True,
    return_tensors="pt",
).to("cuda")

text_streamer = TextStreamer(tokenizer)
_ = model.generate(input_ids=inputs, streamer=text_streamer, max_new_tokens=128, use_cache=True)

模型的回答是“9.9”，这是正确的！说明我们的微调取得了初步成功。

现在，让我们来保存训练好的模型。还记得我们之前讨论的LoRA和QLoRA吗？我们训练的其实并非模型本身，而是一组适配器。Unsloth提供了三种保存方法：lora仅保存适配器；merged_16bit/merged_4bit则将适配器与模型以16位/4位精度合并。在下面的操作中，为了最大化模型质量，我们将它们以16位精度合并。首先，我们将其本地保存到“model”目录中，然后上传到Hugging Face平台。你可以在mlabonne/FineLlama-3.1-8B找到这个训练好的模型。

model.save_pretrained_merged("model", tokenizer, save_method="merged_16bit")
model.push_to_hub_merged("mlabonne/FineLlama-3.1-8B", tokenizer, save_method="merged_16bit")

Unsloth还允许你直接将模型转换为GGUF格式。这是一种专为llama.cpp设计的量化格式，兼容LM Studio、Ollama和oobabooga的text-generation-webui等大多数推理引擎。由于GGUF格式支持多种精度（可参考我关于GGUF和llama.cpp的文章），我们将遍历一个列表，将其量化为q2_k、q3_k_m、q4_k_m、q5_k_m、q6_k、q8_0等多种精度，并将这些量化模型上传到Hugging Face平台。mlabonne/FineLlama-3.1-8B-GGUF中包含了我们所有的GGUF模型。

quant_methods = ["q2_k", "q3_k_m", "q4_k_m", "q5_k_m", "q6_k", "q8_0"]
for quant in quant_methods:
    model.push_to_hub_gguf("mlabonne/FineLlama-3.1-8B-GGUF", tokenizer, quant)

恭喜大家，我们已经从零开始微调了一个模型，并上传了可以在你喜欢的推理引擎中使用的量化版本。欢迎大家尝试mlabonne/FineLlama-3.1-8B-GGUF上提供的最终模型。

那么，接下来我们可以做什么呢？这里有一些实用的建议，帮助你进一步利用自己的定制化模型：

性能评估：你可以将模型提交到Open LLM排行榜（免费提交），或者使用LLM AutoEval等其他评估工具，了解模型的实际表现。
偏好对齐优化：利用mlabonne/orpo-dpo-mix-40k这样的偏好数据集，通过直接偏好优化（Direct Preference Optimization，DPO）来进一步提升模型性能，使其更符合人类偏好。
更多量化格式：使用AutoQuant工具，将模型量化为EXL2、AWQ、GPTQ或HQQ等其他格式，以实现更快的推理速度或更低的精度。
部署应用：如果模型经过充分训练，能够很好地遵循聊天模板（通常约2万个样本），你可以将其部署到Hugging Face Space上的ZeroChat平台，打造自己的智能应用。

总结与展望

本文为大家全面剖析了监督式微调（SFT）的核心原理，并手把手演示了如何实战微调Llama 3.1 8B模型。通过巧妙利用QLoRA高效的内存管理优势，我们成功在有限的GPU资源下，对一个80亿参数的大模型进行了高质量微调。同时，我们也为更大规模的训练任务提供了更高效的替代方案，并就模型评估、偏好对齐、量化部署等方面给出了下一步的建议。新媒网跨境预测，随着技术的不断发展，定制化大模型将成为我们跨境出海业务的重要竞争力。

希望这份实战指南对大家有所启发。如果你对LLM有更深入的学习兴趣，推荐关注我们的LLM课程。如果你喜欢这篇文章，欢迎在X（推特，用户名为@maximelabonne）和Hugging Face（用户名为@mlabonne）上关注我。祝愿大家在模型微调的道路上越走越顺，收获满满！

新媒网（公号: 新媒网跨境发布），是一个专业的跨境电商、游戏、支付、贸易和广告社区平台，为百万跨境人传递最新的海外淘金精准资讯情报。

本文来源：新媒网 https://nmedialink.com/posts/llama31-finetune-4hr-custom-biz-llm.html