LLM效率提升实操：30分钟极速搞定业务效率翻倍！

各位跨境电商的实战高手们，大家好！

今天咱们不聊货盘选品，也不谈广告投放，而是深入探讨一个当下最热门的技术前沿——大语言模型（LLM）。别看它听起来高大上，实际上，它已经渗透到咱们跨境业务的方方面面，能大大提升效率，优化决策。

新媒网跨境获悉，我们整理了一套针对中国跨境从业人员的大语言模型学习路径，它包含两个主要方向，无论你是想深入模型底层，还是想快速应用到实际业务中，都能找到适合自己的切入点：

🧑‍🔬 LLM科学家之路： 这条路更注重研究如何利用最前沿的技术，构建出性能最佳的大语言模型。
👷 LLM工程师之路： 这条路则侧重于开发和部署基于LLM的应用，让模型真正为咱们的业务服务。

基于这套课程，我和一位外籍专家Paul Iuzstin共同撰写了《LLM工程师实战手册》，它从设计到部署，手把手教你如何打造一个端到端的LLM应用。这套学习资源会一直免费开放给大家，当然，如果您觉得有帮助，也欢迎通过购买书籍支持我们的工作。

为了让大家有更沉浸式的学习体验，我们还在HuggingChat（强烈推荐）或ChatGPT上搭建了一个LLM助手。它能个性化地回答你的问题，帮你测试知识掌握程度，学习起来更高效。

🧑‍🔬 LLM科学家之路：深挖模型背后的奥秘

这部分内容，咱们主要聚焦如何运用最先进的技术，构建出性能卓越的大语言模型。这可能听起来有点“硬核”，但了解这些原理，能让咱们在使用模型时更游刃有余。
image/png

1. LLM架构核心：文本的奇妙“翻译”与“生成”

要构建大模型，深入理解Transformer架构并不是必须的。但作为实战派，咱们得明白现代LLM运作的几个关键步骤：首先，把咱们的文字内容通过“分词器”转换成模型能理解的数字；接着，这些数字会经过多层处理，其中包含了核心的“注意力机制”；最后，模型会通过各种“采样策略”生成新的文字。

架构概览： 咱们得了解从编码器-解码器结构的Transformer，到像GPT这类纯解码器架构的演变。这些模型是现代LLM的基础，咱们要从宏观层面理解它们如何处理和生成文本。

分词机制（Tokenization）： 学习分词的原理，也就是文本如何被转换成LLM能处理的数字表示。不同的分词策略对模型的性能和输出质量影响很大，这个点值得琢磨。

注意力机制（Attention mechanisms）： 掌握注意力机制的核心概念，特别是自注意力机制及其变体。理解这些机制如何让LLM处理长距离的依赖关系，并在处理序列时保持上下文一致性，这可是大模型聪明的秘密。

采样技术（Sampling techniques）： 探索各种文本生成方法及其权衡。比较确定性方法，比如贪婪搜索和束搜索，以及概率性方法，例如温度采样和核心采样。生成不同风格的文本，全靠它们。

📚 拓展阅读：

3Blue1Brown的Transformer可视化介绍： 这是一位知名科普博主，为初学者形象地讲解Transformer。
Brendan Bycroft的LLM可视化： 这个工具能让你互动式地3D查看LLM内部结构，非常直观。
Andrej Karpathy的nanoGPT项目： 这位知名技术专家用2小时的YouTube视频，手把手教程序员如何从零开始实现GPT。他还专门制作了一个关于分词的视频，干货满满。
Lilian Weng的“Attention? Attention!”文章： 这篇文章从历史角度介绍了注意力机制的必要性。
Maxime Labonne关于LLM解码策略的讲解： 提供了代码和视觉介绍，让你明白各种文本生成解码策略。

2. 模型预训练：海量数据的“炼金术”

预训练是个计算密集且成本高昂的过程。虽然这不是咱们这门课的重点，但对模型如何预训练，特别是在数据和参数方面，有个扎实的理解还是很有必要的。当然，如果只是小规模爱好者，用小于10亿参数的模型也能进行一些小规模的预训练尝试。

数据准备： 预训练需要海量数据集（比如Llama 3.1模型就用15万亿个token进行训练）。这些数据需要精心整理、清洗、去重和分词。现代的预训练流程都会采用复杂的过滤机制，去除低质量或有问题的内容，确保“吃”进去的都是好料。

分布式训练： 这需要结合多种并行化策略：数据并行（批量分发）、流水线并行（层级分发）和张量并行（操作拆分）。这些策略要求GPU集群间有优化的网络通信和内存管理，才能跑得又快又稳。

训练优化： 咱们会用到带预热的自适应学习率、梯度裁剪和归一化（防止梯度爆炸），以及用于内存效率的混合精度训练。还有一些现代优化器（如AdamW、Lion）配合精心调优的超参数，都是提升训练效果的关键。

过程监控： 利用仪表盘追踪关键指标，比如损失值、梯度变化、GPU状态。针对分布式训练中可能出现的问题，实施有针对性的日志记录，并设置性能分析，找出计算和设备通信中的瓶颈，确保训练顺利进行。

📚 拓展阅读：

Penedo等人关于FineWeb的文章： 讲解如何重现一个大规模LLM预训练数据集（15万亿），包括高质量子集FineWeb-Edu。
Weber等人关于RedPajama v2的文章和论文： 另一篇关于大规模预训练数据集的资料，其中包含了许多有趣的质量过滤方法。
Hugging Face的nanotron项目： 这是一个极简的LLM训练代码库，曾用于构建SmolLM2。
Chenyan Xiong关于并行训练的概述： 介绍了优化和并行化技术。
Duan等人关于分布式训练的综述： 一篇关于分布式架构上LLM高效训练的调查报告。
AI2的OLMo 2： 这是一个开源语言模型，包含模型、数据、训练和评估代码。
LLM360的LLM360框架： 一个用于开源LLM的框架，提供训练和数据准备代码、数据、指标和模型。

3. 后训练数据集：让模型更懂“人话”

后训练数据集的结构非常精确，通常包含指令和答案（监督微调），或者指令和被选/被拒的答案（偏好对齐）。与预训练使用的原始文本不同，对话式结构的数据比较稀缺。因此，咱们通常需要处理种子数据并进行精炼，以提高样本的准确性、多样性和复杂性。更多信息和示例，大家可以参考我的💾 LLM数据集仓库。

存储与聊天模板： 由于是对话结构，后训练数据集通常以ShareGPT或OpenAI/HF等特定格式存储。然后，这些格式会被映射到ChatML或Alpaca等聊天模板，生成最终用于模型训练的样本。

合成数据生成： 利用GPT-4o这类前沿模型，根据种子数据生成指令-响应对。这种方法能灵活、可扩展地创建高质量答案的数据集。关键在于设计多样化的种子任务和有效的系统提示词。

数据增强： 利用各种技术来增强现有样本，例如：经过验证的输出（通过单元测试或求解器）、带有拒绝采样的多个答案、Auto-Evol、思维链（Chain-of-Thought）、分支-解决-合并（Branch-Solve-Merge）以及角色扮演（personas）等。

质量过滤： 传统技术包括基于规则的过滤、去除重复或近似重复（使用MinHash或嵌入），以及n-gram去污染。奖励模型和判别式LLM可以补充这一步骤，进行更精细和可定制的质量控制。

📚 拓展阅读：

Argilla的合成数据生成器： 在Hugging Face Space上，用自然语言构建数据集的友好方式，对新手很友好。
Maxime Labonne的LLM数据集： 精心整理的后训练数据集和工具列表。
Nvidia的NeMo-Curator： 用于预训练和后训练数据的数据准备和管理框架。
Argilla的Distilabel： 一个生成合成数据的框架，还包括UltraFeedback等论文的有趣复现。
MinishLab的Semhash： 一个用于近似去重和去污染的轻量级库，使用了蒸馏嵌入模型。
Hugging Face的聊天模板文档： 关于聊天模板的官方文档。

4. 监督微调（SFT）：把“基座”变“助手”

监督微调（SFT）能把基础模型（base models）打造成一个乐于助人的“助理”，让它能回答问题并遵循指令。在这个过程中，模型会学习如何组织答案，并重新激活预训练阶段学到的一部分知识。当然，SFT也能注入新知识，但这种注入通常是表面的，无法让模型学习一门全新的语言。记住，数据质量永远要优先于参数优化！

训练技术： 完全微调会更新模型的所有参数，但需要大量的计算资源。而LoRA和QLoRA等参数高效微调技术（PEFT）通过训练少量适配器参数，同时冻结基础权重，大大降低了内存需求。QLoRA更是将4比特量化与LoRA结合，进一步减少了显存占用。

训练参数： 关键参数包括带调度器的学习率、批量大小、梯度累积、训练轮数、优化器（如8比特AdamW）、用于正则化的权重衰减，以及用于训练稳定性的预热步数。LoRA还额外有三个参数：秩（通常16-128）、alpha值（通常是秩的1-2倍），以及目标模块。

分布式训练： 利用DeepSpeed或FSDP等框架，在多块GPU上扩展训练。DeepSpeed提供三个ZeRO优化阶段，通过状态分区实现逐步提升的内存效率。这两种方法都支持梯度检查点（gradient checkpointing）以提高内存效率。

过程监控： 追踪训练指标，包括损失曲线、学习率调度和梯度范数。监控常见的训练问题，如损失飙升、梯度爆炸或性能下降，确保训练过程平稳。

📚 拓展阅读：

Maxime Labonne关于用Unsloth高效微调Llama 3.1的教程： 手把手教你如何高效微调Llama 3.1模型。
Wing Lian的Axolotl文档： 包含了大量关于分布式训练和数据集格式的有用信息。
Hamel Husain的LLM精通资源： 一系列关于微调（以及RAG、评估、应用和提示工程）的教育资源。
Sebastian Raschka的LoRA实用洞察： 提供了关于LoRA的实用见解，以及如何选择最佳参数。

5. 偏好对齐：让模型更“顺心如意”

偏好对齐是后训练流程的第二阶段，它专注于让模型生成的答案更符合人类的偏好。最初，这个阶段是为了调整LLM的“语气”，减少有害内容和幻觉。然而，它现在变得越来越重要，还能提升模型性能和实用性。

与监督微调（SFT）不同，偏好对齐算法种类繁多。这里咱们主要聚焦其中两个最重要的算法：DPO（直接偏好优化）和PPO（近端策略优化）。

拒绝采样： 对于每个提示词，使用已训练好的模型生成多个响应，并对其评分，以推断哪些是“选中”的，哪些是“拒绝”的答案。这会创建“策略内”数据，即两个响应都来自正在训练的模型，从而提高对齐的稳定性。

直接偏好优化（DPO）： 直接优化策略，最大化选中响应相对于拒绝响应的似然性。它不需要奖励模型，这使得它比PPO在计算上更高效，但在质量上略逊一筹。

近端策略优化（PPO）： 迭代地更新策略，以最大化奖励，同时保持与初始行为的接近。它使用一个奖励模型来评分响应，需要仔细调整超参数，包括学习率、批量大小和PPO裁剪范围。

过程监控： 除了监督微调的指标外，你还需要最大化选中答案和偏好答案之间的差距。准确率也应该逐渐提高，直到达到平台期。

📚 拓展阅读：

Hugging Face的RLHF图解： 介绍了RLHF，包括奖励模型训练和强化学习微调。
Sebastian Rashcka的LLM训练：RLHF及其替代方案： 概述了RLHF流程以及RLAIF等替代方案。
Hugging Face的LLM偏好调优： 比较了DPO、IPO和KTO算法在执行偏好对齐方面的表现。
Maxime Labonne关于用DPO微调Mistral-7b的教程： 教程展示了如何用DPO微调Mistral-7b模型，并复现NeuralHermes-2.5。
Alexander Vishnevskiy的DPO Wandb日志： 展示了需要跟踪的主要指标和预期趋势。

6. 模型评估：是骡子是马，拉出来遛遛！

可靠地评估LLM是一项复杂但至关重要的任务，它指导着数据生成和模型训练。它提供了宝贵的反馈，指明了可以改进的领域，从而优化数据组合、质量和训练参数。不过，我们也要记住古德哈特定律（Goodhart's law）：“当一项衡量标准成为目标时，它就不再是一个好的衡量标准。”

自动化基准测试： 使用MMLU等预设数据集和指标，在特定任务上评估模型。它对具体任务效果很好，但难以评估模型的抽象和创造能力，并且容易受到数据污染的影响。

人工评估： 让人类用户对模型进行提问并评分响应。方法从“凭感觉”的检查，到带有具体指导方针的系统性标注，再到大规模社区投票（竞技场）。它更适合主观任务，但对事实准确性则不太可靠。

基于模型的评估： 使用判别模型和奖励模型来评估模型输出。它与人类偏好高度相关，但可能存在对自身输出的偏见和评分不一致的问题。

反馈信号： 分析错误模式，找出具体的弱点，比如在遵循复杂指令方面的局限性、特定知识的缺乏，或容易受到对抗性提示的影响。这些问题可以通过改进数据生成和训练参数来解决。

📚 拓展阅读：

Clémentine Fourrier的评估指南： 提供了关于LLM评估的实用见解和理论知识。
Hugging Face的Open LLM排行榜： 一个开放且可复现的LLM比较主榜单（自动化基准测试）。
EleutherAI的语言模型评估工具： 一个流行的LLM评估框架，使用自动化基准测试。
Hugging Face的Lighteval： 另一个评估框架，也包含了基于模型的评估。
LMSYS的Chatbot Arena： 基于人类比较的通用LLM Elo排名（人工评估）。

7. 模型量化：让大模型“瘦身增肌”

量化，简单来说，就是把模型的参数和激活值，用更低的精度来表示。比如，原来用16位存储的权重，现在可以转换成4位表示。这项技术对于降低LLM的计算和内存成本变得越来越重要，让咱们在普通电脑上也能跑大模型。

基础技术： 学习不同精度级别（FP32、FP16、INT8等），以及如何使用absmax和零点技术进行朴素量化。

GGUF与llama.cpp： 最初设计用于在CPU上运行，llama.cpp和GGUF格式已经成为在消费级硬件上运行LLM最受欢迎的工具。它支持将特殊token、词汇表和元数据存储在单个文件中。

GPTQ与AWQ： 像GPTQ/EXL2和AWQ这样的技术，引入了逐层校准，即使在极低的位宽下也能保持性能。它们通过动态缩放、选择性跳过或重新中心化最重的参数来减少灾难性异常值。

SmoothQuant与ZeroQuant： 新的量化友好型转换（SmoothQuant）和基于编译器的优化（ZeroQuant）有助于在量化之前缓解异常值。它们还通过融合某些操作和优化数据流来减少硬件开销。

📚 拓展阅读：

Maxime Labonne的量化介绍： 概述了量化、absmax和零点量化，以及带代码的LLM.int8()。
Maxime Labonne关于用llama.cpp量化Llama模型的教程： 教你如何用llama.cpp和GGUF格式量化Llama 2模型。
Maxime Labonne关于用GPTQ进行4比特LLM量化的教程： 教你如何用AutoGPTQ和GPTQ算法量化LLM。
FriendliAI对激活感知权重量化的理解： 概述了AWQ技术及其优势。
MIT HAN Lab关于Llama 2 7B模型使用SmoothQuant的教程： 教你如何在8比特精度下，用Llama 2模型使用SmoothQuant。
DeepSpeed模型压缩教程： 教你如何在DeepSpeed Compression中使用ZeroQuant和极端压缩（XTC）。

8. 新兴趋势：大模型领域的“新风口”

这里是一些未被归入其他类别的值得关注的课题。其中一些是成熟的技术（模型合并、多模态），但另一些则更具实验性（可解释性、测试时计算扩展），是大量研究论文的焦点。

模型合并： 合并已训练好的模型已成为一种流行的方法，无需任何微调即可创建高性能模型。流行的mergekit库实现了最流行的合并方法，如SLERP、DARE和TIES。

多模态模型： 像CLIP、Stable Diffusion或LLaVA这类模型，能处理多种类型的输入（文本、图像、音频等），并统一在一个嵌入空间中，这解锁了文本转图像等强大的应用。

可解释性： 像稀疏自编码器（SAEs）等机制可解释性技术在洞察LLM内部工作原理方面取得了显著进展。这也被应用于像“消融”（abliteral）这样的技术，它允许你在不训练的情况下修改模型的行为。

测试时计算扩展： 在测试时扩展计算预算需要多次调用，并涉及像过程奖励模型（PRM）这样的专用模型。通过精确评分的迭代步骤，可以显著提高复杂推理任务的性能。

📚 拓展阅读：

Maxime Labonne关于用mergekit合并LLM的教程： 关于使用mergekit进行模型合并的教程。
Merve Noyan的Smol Vision： 专注于小型多模态模型的一系列Notebook和脚本。
Chip Huyen的大型多模态模型： 概述了多模态系统和该领域的近期历史。
Maxime Labonne关于用“消融”技术“解禁”LLM的教程： 直接应用可解释性技术来修改模型的风格。
Adam Karvonen对SAE的直观解释： 关于SAE工作原理和其在可解释性中意义的文章。
Beeching等人关于测试时计算扩展的论文： 一项关于如何用3B模型在MATH-500上超越Llama 3.1 70B的教程和实验。

👷 LLM工程师之路：让大模型在跨境业务中“大显身手”

这一部分，咱们的重点是学习如何构建可以投入生产、基于LLM的应用程序，特别是如何增强模型能力并进行部署。对于咱们跨境人来说，这才是真正能提升效率，带来实实在在效益的“硬核”技能！
image/png

1. 运行LLM：选择合适的“驱动”方式

运行LLM可能因为高昂的硬件要求而变得困难。根据咱们的具体业务场景，你可能只想通过API（比如GPT-4）简单地调用模型，或者想在本地部署运行。无论哪种方式，额外的提示词工程和引导技术都能提高并约束模型的输出，让它更符合咱们跨境业务的实际需求。

LLM API： API是部署LLM的便捷方式。这个领域分为私有LLM（如OpenAI、谷歌、Anthropic、Cohere等）和开源LLM（如OpenRouter、Hugging Face、Together AI等）。对于咱们来说，选择合适的API，能大大降低技术门槛。

开源LLM： 知名AI社区Hugging Face平台是寻找LLM的好地方。你可以在Hugging Face Spaces上直接运行一些模型，或者下载后通过LM Studio、llama.cpp或Ollama等应用在本地运行，这在保护数据隐私方面有独特优势。

提示词工程（Prompt engineering）： 常见的技巧包括零样本提示（zero-shot prompting）、少样本提示（few-shot prompting）、思维链（chain of thought）和ReAct。这些方法在大型模型上效果更好，但也可以针对小型模型进行调整，是咱们“调教”模型的关键。

结构化输出： 许多任务需要结构化的输出，比如严格的模板或JSON格式。LMQL、Outlines、Guidance等库可以用来引导生成，确保模型输出符合咱们预设的结构，比如自动生成商品描述时，确保标题、价格、特点等字段清晰。

📚 拓展阅读：

Nisha Arya关于用LM Studio在本地运行LLM的简短指南： 让你快速上手LM Studio。
DAIR.AI的提示词工程指南： 详尽的提示词技术列表，并附带实例，是“炼丹师”必备手册。
Outlines - 快速入门： 概述了Outlines支持的引导生成技术。
LMQL - 概览： LMQL语言的介绍。

2. 构建向量存储：为RAG打好“地基”

构建向量存储是建立检索增强生成（RAG）流水线的第一步。首先，咱们会加载、分割文档，然后利用相关的文本片段生成向量表示（嵌入），并将其存储起来，以便在后续推理时使用。

文档摄取： 文档加载器是非常方便的“打包器”，可以处理多种格式的文档：PDF、JSON、HTML、Markdown等。它们还可以直接从某些数据库和API（如GitHub、Reddit、谷歌云盘等）检索数据，省去了咱们手动导出的麻烦。

文档分割： 文本分割器将文档分解成更小、语义上更有意义的文本块。与其简单地按字符数分割，不如按标题或递归地进行分割，并添加一些额外的元数据，这样能更好地保持语义完整性。

嵌入模型： 嵌入模型将文本转换成向量表示。它能更深层次、更细致地理解语言，这对于执行语义搜索至关重要。

向量数据库： 向量数据库（如Chroma、Pinecone、Milvus、FAISS、Annoy等）专门用于存储嵌入向量。它们能根据向量相似度高效地检索与查询“最相似”的数据，是RAG的核心组件。

📚 拓展阅读：

LangChain - 文本分割器： LangChain中实现的各种文本分割器列表。
Sentence Transformers库： 这是一个流行的嵌入模型库。
MTEB排行榜： 嵌入模型的性能排行榜，方便咱们选择最佳模型。
Moez Ali的五大向量数据库比较： 比较了最优秀和最受欢迎的向量数据库。

3. 检索增强生成（RAG）：给大模型装上“搜索引擎”

通过RAG，LLM可以从数据库中检索上下文相关的文档，从而提高答案的准确性。RAG是一种非常流行的方法，无需微调就能增强模型的知识储备。

编排器（Orchestrators）： 像LangChain、LlamaIndex、FastRAG等编排框架，是连接LLM与工具、数据库、记忆等组件，并增强其能力的流行工具。

检索器（Retrievers）： 用户的指令通常不是为检索而优化的。可以应用不同的技术（例如，多查询检索器、HyDE等）来改写/扩展它们，从而提高检索性能。

记忆（Memory）： 为了记住之前的指令和答案，LLM和像ChatGPT这样的聊天机器人会把历史对话添加到它们的上下文窗口。这个缓冲区可以通过摘要（例如，使用小型LLM）、向量存储+RAG等方式进行改进。

评估： 我们需要同时评估文档检索（上下文精度和召回率）和生成阶段（忠实度和答案相关性）。这可以通过Ragas和DeepEval等工具进行简化。

📚 拓展阅读：

Llamaindex - 高级概念： 构建RAG流水线时需要了解的主要概念。
Pinecone - 检索增强： 检索增强过程概述。
LangChain - RAG问答： 构建典型RAG流水线的逐步教程。
LangChain - 记忆类型： 不同类型记忆的列表及其相关用法。
RAG流水线 - 指标： 评估RAG流水线使用的主要指标概述。

4. 高级RAG：解锁更复杂的“智慧”应用

实际应用中可能需要更复杂的流水线，包括与SQL或图数据库的集成，以及自动选择相关的工具和API。这些高级技术可以改进基础解决方案，并提供额外的功能。

查询构建： 存储在传统数据库中的结构化数据需要特定的查询语言，如SQL、Cypher、元数据等。咱们可以直接将用户指令转换为查询，通过查询构建来访问数据。

代理（Agents）和工具： 代理通过自动选择最相关的工具来提供答案，从而增强LLM的能力。这些工具可以很简单，比如使用谷歌或维基百科，也可以更复杂，比如Python解释器或Jira。

后处理： 这是输入到LLM的最后一步。它通过重排序（re-ranking）、RAG融合（RAG-fusion）和分类等方式，增强检索到的文档的相关性和多样性。

程序化LLM（Program LLMs）： 像DSPy这样的框架，允许你以程序化的方式，根据自动化评估来优化提示词和权重，让模型调整更加智能。

📚 拓展阅读：

LangChain - 查询构建： 关于不同类型查询构建的博客文章。
LangChain - SQL： 关于如何用LLM与SQL数据库交互的教程，涉及文本到SQL以及可选的SQL代理。
Pinecone - LLM代理： 介绍了代理和工具及其不同类型。
Lilian Weng的LLM驱动的自主代理： 一篇关于LLM代理的理论性文章。
LangChain - OpenAI的RAG： 概述了OpenAI采用的RAG策略，包括后处理。
DSPy的8个步骤： DSPy通用指南，介绍了模块、签名和优化器。

5. 推理优化：让大模型跑得更快，成本更低

文本生成是一个耗费巨大的过程，需要昂贵的硬件。除了量化，还提出了各种技术来最大化吞吐量并降低推理成本，这对于咱们跨境业务中的API调用费用，可是实实在在的节省！

Flash Attention： 注意力机制的优化，将其复杂度从二次方变为线性，从而加速训练和推理过程。

键值缓存（Key-value cache）： 理解键值缓存，以及多查询注意力（MQA）和分组查询注意力（GQA）引入的改进，这些都是提升速度的关键。

推测解码（Speculative decoding）： 使用一个小型模型生成草稿，然后由一个大型模型进行审查，从而加速文本生成。

📚 拓展阅读：

Hugging Face的GPU推理优化： 解释了如何在GPU上优化推理。
Databricks的LLM推理优化： 在生产环境中优化LLM推理的最佳实践。
Hugging Face的LLM速度和内存优化： 解释了优化速度和内存的三种主要技术：量化、Flash Attention和架构创新。
Hugging Face的辅助生成： 这是Hugging Face版本的推测解码，一篇关于其工作原理和实现代码的有趣博客文章。

6. 部署LLM：从“纸上谈兵”到“落地应用”

大规模部署LLM是一项工程壮举，可能需要多个GPU集群。但在其他场景下，通过较低的复杂度也可以实现演示和本地应用。

本地部署： 隐私是开源LLM相对于私有LLM的重要优势。本地LLM服务器（LM Studio、Ollama、oobabooga、kobold.cpp等）利用这一优势为本地应用提供支持，特别适合对数据隐私有严格要求的跨境企业。

演示部署： Gradio和Streamlit等框架有助于快速原型开发和分享演示应用。你也可以轻松地将它们托管在线，例如使用Hugging Face Spaces，方便团队内部或客户演示。

服务器部署： 大规模部署LLM需要云（也可参考SkyPilot）或本地基础设施，通常会利用像TGI、vLLM等优化的文本生成框架，确保高并发和低延迟。

边缘部署： 在资源受限的环境中，MLC LLM和mnn-llm等高性能框架可以在网络浏览器、安卓和iOS设备上部署LLM，让AI能力触手可及。

📚 拓展阅读：

Streamlit - 构建一个基础LLM应用： 制作一个类似ChatGPT的基础应用教程。
Hugging Face LLM推理容器： 使用Hugging Face的推理容器在Amazon SageMaker上部署LLM。
Philipp Schmid的博客： 一系列关于使用Amazon SageMaker部署LLM的高质量文章。
Hamel Husain的延迟优化： 比较了TGI、vLLM、CTranslate2和MLC在吞吐量和延迟方面的表现。

7. LLM安全：为大模型应用“保驾护航”

除了与软件相关的传统安全问题外，LLM由于其训练和提示方式，还存在独特的弱点。作为负责任的跨境从业者，我们必须了解并防范这些风险。

提示词攻击（Prompt hacking）： 包括提示词注入（额外指令劫持模型答案）、数据/提示词泄露（检索原始数据/提示词）和越狱（精心制作提示词以绕过安全功能）等与提示词工程相关的不同技术。

后门（Backdoors）： 攻击向量可以针对训练数据本身，通过投毒训练数据（例如，注入虚假信息）或创建后门（在推理过程中改变模型行为的秘密触发器）。

防御措施： 保护LLM应用程序的最佳方法是针对这些漏洞进行测试（例如，使用红队测试和garak等检查工具），并在生产环境中观察它们（使用langfuse等框架）。

📚 拓展阅读：

HEGO Wiki的OWASP LLM十大漏洞： LLM应用程序中十大最关键漏洞列表。
Joseph Thacker的提示词注入入门： 针对工程师的提示词注入简短指南。
@llm_sec的LLM安全资源： 与LLM安全相关的广泛资源列表。
微软的LLM红队测试指南： 如何对LLM进行红队测试的指南。

总结与寄语

各位跨境同行，我的核心建议是：做你喜欢并享受的事情！

无论是打开Google Colab Notebook，安装各种库，亲手玩转它们；还是在Hugging Face Spaces上部署一个模型，体验开发的乐趣；抑或是尝试破解一个应用，探索模型的边界；又或者是给一个LLM进行量化，甚至为咱们的RAG应用精细微调一个模型……找到你自己的赛道，然后深入挖掘它。

这个领域非常广阔，研究和资金投入都非常巨大。只要你在这个庞大的课程中，精通其中一个点，把它做到极致，你就会变得无可替代，为咱们的跨境事业贡献独特价值！希望大家都能学有所成，用AI赋能跨境，共同进步！

新媒网（公号: 新媒网跨境发布），是一个专业的跨境电商、游戏、支付、贸易和广告社区平台，为百万跨境人传递最新的海外淘金精准资讯情报。

本文来源：新媒网 https://nmedialink.com/posts/llm-biz-efficiency-x2-in-30min.html