极速搞定智体技能赋能！小模型性能暴增45%

各位跨境战友们，大家好！我是你们的老朋友，也是圈子里的实战专家和导师。今天，咱们不聊别的，就来好好扒一扒AI智能体（Agent）技能这个新玩法，看看它如何能帮我们的跨境事业“降本增效”，把好钢用在刀刃上。

新媒网跨境获悉，在瞬息万变的全球市场中，智能化工具已经成为我们不可或缺的左右手。如何让这些工具更聪明、更高效，正是我们今天要探讨的核心。

AI智能体技能，到底是个什么新鲜玩意儿？

你可能听过“AI Agent”这个词，它就是我们的“智能助手”。而“智能体技能”，简单来说，就是给这些智能助手量身定制的“武功秘籍”或“专业教材”。

想象一下，我们跨境卖家日常会遇到各种复杂任务：比如针对特定市场，如何撰写高效的商品描述？如何优化广告投放策略？甚至是如何让AI模型更好地理解和处理海量的图片数据？这些都不是AI“随便”就能搞定的。

传统的做法是，每次都得给AI写一大段详细指令，或者换用更强大的AI模型，但成本也随之飙升。而“智能体技能”的出现，就像是把这些“专家级经验”和“操作手册”打包，以文件形式预先存好，需要时直接给AI调用。这样，不仅方便生成和共享，更关键的是，它能让AI在特定领域或处理那些高难度问题时，表现得更加出色。它专门用来解决那些AI本身不易处理的“硬核”问题，而不是那些轻而易举的小任务。

这篇文章，咱们就用实战案例来手把手教你，如何利用名为“upskill”的利器，把昂贵、顶级的AI模型（比如Anthropic公司的大模型）所掌握的“独门绝技”，高效地“传授”给那些成本更低、甚至能在你本地电脑上运行的小型AI模型。

用咱们的话说，这就是一套“以小博大”、“降维打击”的策略。

AI智能体技能，为跨境卖家带来什么？

AI智能体技能的优势，核心在于两点：

其一，你可以用它来驱动顶级的AI模型（比如Opus 4.5或同级别的SOTA模型），去攻克目前为止最复杂的商业难题。比如，在数据分析、市场预测等深水区，让AI发挥出最大潜能。

其二，也是更激动人心的，你能将那些成本较低、甚至能在你个人电脑上跑起来的AI模型，通过“技能加持”，使其处理复杂问题的能力大幅提升。这就像给你的“经济适用型”员工，配备了“专家级”的知识库，让他也能干出“高大上”的活儿。

今天，我们就聚焦第二种情况。通过新工具upskill，教你如何生成并评估AI智能体技能，然后将这些技能赋能给更小巧、更经济的AI模型。我们将以编写CUDA内核（CUDA Kernels）这项专业技术为例进行剖析。虽然听起来有些技术性，但原理是相通的：它能有效降低我们使用AI的成本，让小型模型也能处理过去只有大型模型才能胜任的、特定领域甚至高度专业化的问题。

AI智能体技能：如何将顶尖AI的“绝活”传授给“平价”AI？

我们第一次尝试基于现有文档制作一个简单的技能时，发现它确实能提升某些模型的表现，但并非对所有模型都有效。有时甚至会降低性能，或增加token（处理单元）的消耗。
plot of model performance
（上图展示了模型在有无基础技能情况下的性能对比。）

那么，究竟如何才能用“upskill”工具来提升AI助手的硬核能力，并准确衡量效果呢？别急，我们一步步来。

第一步：让“老师傅”Claude Opus 4.5，打造核心技能

首先，我们请出“老师傅”——Anthropic公司的Claude Code。通过与它互动，让它逐步构建一个核心的“内核”技能，并记录下整个过程。

我们在这个过程中，不断地给出指令、验证结果，甚至提供相关的文档链接。这种“看似笨拙”的迭代过程，恰恰能暴露模型最初面临的挑战。你可以反复进行这个环节，尝试用技能草稿来解决问题，并用小型模型进行测试。每次迭代后，你都可以引导智能体优化技能，并在小型模型上继续验证。

这里，新媒网跨境了解到，核心思想是，由最强大的AI模型来“演示”并“总结”其解决复杂问题的路径，形成一份“行动轨迹”或“实战经验”。

第二步：从“老师傅”的经验中，提炼智能体技能

一旦“老师傅”模型完成了任务，下一步就是把它的“独门秘籍”提炼成可复用的技能文件。这里有几种常见做法：

即时指令: 在同一会话中，直接指示AI智能体，根据它刚刚完成的任务，生成一个技能文件。
专业工具辅助: 使用例如Anthropic提供的“技能创建器”（skill creator）工具，无论是直接在智能体会话中，还是通过导出的“行动轨迹”在新会话中创建。
upskill工具加持: 利用我们今天的主角——upskill工具，它可以根据“行动轨迹”自动创建技能。

通常来说，前两种方法能生成可用的技能。但问题在于，我们并不知道AI智能体带上这个技能后，实际表现到底如何。这时，upskill的价值就体现出来了，它不仅能生成技能，还会基于“行动轨迹”自动生成测试案例。然后，它会对比两种场景下的结果：一种是直接使用“行动轨迹”（即原始模型表现），另一种是应用了新技能后的表现。

通过评估，我们可以看到，即便是原始的“老师傅”模型（比如Claude Opus），在有无技能的情况下，性能表现是基本一致的。这说明技能文件成功捕捉到了这项任务的精髓，非常棒！
terminal evaluation
（上图展示了“老师傅”模型在有无技能时的评估结果，性能保持一致，说明技能提炼成功。）

第三步：将技能赋能给开源、小型或更经济的模型

最后一步，就是把我们精心打造的技能，传授给那些我们打算实际使用的工具或模型。目前，主流的AI编程工具，比如Codex、Cursor、Opencode等，在技能文件的格式上已经形成了统一规范：通常是一个目录，路径为{agent}/skills/{skill_name}/SKILL.md。我们只需将技能目录复制到这个位置即可。

通过upskill工具，我们能够将一个技能文件和一系列待评估的模型传递给eval命令。upskill便会自动在这些模型上，分别在有无技能的情况下运行测试案例，并比较它们的性能表现。

我们可以清楚地看到，这个技能确实提升了一些开源模型的准确性，但并非对所有模型都有效。
performance evaluation
（上图显示了技能对不同开源模型准确率的影响，部分模型效果显著。）

在这种情况下，我们可能需要对某些模型的技能进行进一步迭代优化，可以尝试使用upskill generate –from {skill}命令来重新生成技能。

其实，AI智能体技能的价值远不止于模型性能的提升。很多时候，AI智能体无论有没有技能，都能达到一定的准确率，但关键在于它们需要消耗多少token（也就是我们常说的“算力”成本）。对于那些需要反复执行的任务，我们当然希望AI智能体在保持相同准确率的前提下，消耗更少的token。

下面的结果进一步揭示了技能的另一层价值。某些模型在应用技能后，显著降低了token消耗，而另一些模型则增加了消耗。举个例子，对于moonshotai/Kimi-K2-Thinking模型来说，这个技能在准确率和token使用上都表现出色，效果显著。但对于Claude Opus 4.5模型而言，性能提升不明显，反而token消耗有所增加，那显然我们就不应该用这个技能去搭配Claude Opus 4.5。
token usage
（上图展示了技能对不同模型token消耗的影响，Kimi模型表现亮眼。）

简而言之，就是多尝试、多评估！使用upskill eval或其他类似的工具，来对比你的模型在有无技能时的实际表现，才能找到最佳的“搭配组合”。

以上，就是利用AI智能体技能，去解决复杂问题的端到端“升级”全流程。

想要亲自试试？操作也很简单：

# 安装 upskill 工具
pip install upskill
# 或者使用 uvx 命令进行一次性运行
uvx upskill --help
# 基于AI智能体的操作轨迹来生成技能
upskill generate "write nvidia kernels" --from ./trace.md
# 评估不同模型在特定技能上的表现
upskill eval ./skills/my-skill/ --model haiku --model sonnet
# 为本地模型生成技能，注意这里可以指定本地服务器地址
upskill generate "parse YAML" --model opus --eval-model "unsloth/GLM-4.7-Flash-GGUF:Q4_0" --eval-base-url http://localhost:8080/v1

深入剖析：AI智能体如何掌握编写CUDA内核的“真功夫”？

前面我们大致了解了如何“升级”AI智能体的能力。现在，咱们来深入看看如何解决一个具体的应用场景：编写CUDA内核。我们不只是停留在生成代码，而是要让AI智能体掌握完整的内核构建工作流，包括项目结构、build.toml配置、针对特定硬件架构的优化，以及PyTorch的绑定方法。

这个教程就是要展示，upskill如何能创建出经过验证、真正管用的技能。

这个名为kernel-builder-cuda-kernels的技能，能让Claude（Anthropic公司的大模型）掌握CUDA开发所需的方方面面：比如要针对哪种GPU架构进行开发、项目结构应该如何搭建、何时使用共享内存、何时使用寄存器，以及如何编写PyTorch绑定等。

有了这个技能，你就可以直接对Claude下达这样的指令：

为H100 GPU构建一个融合了LayerNorm和GELU的优化内核。

Claude就会自动生成完整的项目结构、CUDA实现代码和构建配置——而且完全遵循kernel-builder工具预期的规范。

这可不是简单地生成一些模板代码。这个技能里面，包含了实实在在的领域专业知识：比如H100的计算能力是9.0，共享内存需要按照128字节对齐，异步内存拷贝需要__CUDA_ARCH__ >= 900等。这些知识点，如果让开发者去查阅文档，可能要耗费数小时。现在，它们被打包成大约500个token的技能文件，需要时随取随用，极大地提高了效率。

准备工作：环境搭建与安装

首先，安装upskill工具：

pip install upskill
# 或者使用 uvx 命令进行一次性运行
uvx upskill --help

接着，设置你的API密钥：

export ANTHROPIC_API_KEY=sk-ant-...
export HF_TOKEN=hf_...

大功告成！upskill工具默认使用Anthropic公司的Claude Opus-4.5模型作为技能生成器，但它也支持通过OpenAI兼容接口连接OpenAI和本地模型。我们的策略是，用那些更昂贵、质量更高的模型来生成技能，然后用这些技能去驱动那些小巧、经济的模型。这就像是现代版的“劫富济贫”，用“富”的智慧去普惠“贫”的效率。

技能生成实操

接下来，咱们手把手操作，生成一个技能，教会AI智能体如何利用HuggingFace的kernels库来构建CUDA内核。

生成核心技能

从一个清晰的任务描述开始：

upskill generate "build optimized CUDA kernels for PyTorch using HuggingFace kernel-builder"

当然，上面我们是用upskill直接生成，你也可以选择其他AI智能体或聊天工具，然后导出操作轨迹文件：

upskill generate "write kernels" --from <agent-trace>.md

或者，你也可以从一个现有的技能文件开始，在其基础上进行改进和添加：

upskill generate "add more error handling and edge cases" --from ./skills/kernel-builder-cuda-kernels/

upskill会自动加载现有技能，应用你的改进，然后重新评估，确保这些改动确实带来了帮助。

upskill会完成技能创建、测试案例生成、性能评估，并根据失败情况进行优化：

Generating skill with sonnet...
Generating test cases...
Evaluating on sonnet... (attempt 1) 60% -> 95% (+35%) OK

kernel-builder-cuda-kernels
Build optimized CUDA kernels for PyTorch using HuggingFace kernel-builder.

SKILL.md ~520 tokens
baseline ████████████ 60%
with skill ███████████████████ 95% (+35%)

Saved to ./skills/kernel-builder-cuda-kernels

这里的“baseline”（基线）显示的是模型在没有任何技能辅助下的表现。“with skill”（带技能）结果则是在技能注入上下文后的表现。35%的提升，明确告诉我们，这个技能确实有效！

这个技能会以目录形式保存，遵循智能体技能（Agent Skills）规范：

./skills/kernel-builder-cuda-kernels/
├── SKILL.md          # 技能核心指令 (~520 tokens)
└── skill_meta.json   # 技能元数据和测试案例

你可以打开SKILL.md文件，看看upskill到底生成了什么内容：

---
name: kernel-builder-cuda-kernels
description: Build optimized CUDA kernels for PyTorch using HuggingFace kernel-builder.
---

# 使用 kernel-builder 构建 CUDA 内核

## 概述

本指南详细介绍了如何利用HuggingFace的kernel-builder工具，为PyTorch模型创建优化的CUDA内核。内容涵盖项目设置、内核实现，以及针对NVIDIA H100等特定GPU架构的构建方法。

## 项目结构

```text
project/
├── build.toml        # 构建配置
├── kernel_src/       # CUDA内核实现代码
│   ├── attention.cu
│   ├── layernorm.cu
│   └── geglu.cu
└── torch-ext/        # PyTorch C++绑定
    └── torch_binding.cpp

构建配置

创建 build.toml 文件来定义你的内核包：

[general]
name = "diffuser_kernels"
backends = ["cuda"]

[general.cuda]
# H100 的计算能力为 9.0
capabilities = ["9.0"]
...

在不同模型上进行评估

最关键的测试环节来了：这个技能到底能不能帮助我们本地的、或者更便宜的模型来构建内核呢？

# 启动一个兼容 OpenAI 接口的本地服务器，并带上网页界面：
llama-server -hf unsloth/GLM-4.7-Flash-GGUF:Q4_K_M
# 在本地模型（llama.cpp 服务器）上进行评估
upskill eval ./skills/my-skill/ --model "unsloth/GLM-4.7-Flash-GGUF:Q4_0" --base-url http://localhost:8080/v1

Generating skill with sonnet...
Generating test cases...
Evaluating on "unsloth/GLM-4.7-Flash-GGUF:Q4_0"... (attempt 1) 40% -> 85% (+45%) OK

baseline ████████░░░░░░░░░░░░ 40%
with skill █████████████████░░░ 85% (+45%)

Saved to ./skills/kernel-builder-cuda-kernels

令人振奋！对“unsloth/GLM-4.7-Flash-GGUF:Q4_0”模型而言，性能提升了45%！这说明这个技能成功地将强大的领域知识，从一个能力超群的模型，有效地传递给了这个运行更快、成本更低的模型。

新媒网跨境认为，一个对较弱模型都奏效的技能，对更强的模型肯定也能发挥作用。这正是AI智能体技能的核心价值所在：利用昂贵的模型来创造知识和技能，然后将这些技能部署到那些便宜的、甚至本地运行的模型上，实现知识的“普惠”。

upskill工具的评估机制揭秘

upskill采用了一种“师生”模式来评估模型。在这里，“老师”模型负责生成测试案例，而“学生”模型则接受这些测试的检验。

老师模型（比如Opus）负责生成核心技能。
测试案例由老师模型（Opus）根据任务描述自动生成。
学生模型（比如本地模型）会在有无技能的情况下，分别进行评估。
技能提升度（Skill Lift）则衡量了性能的提升幅度。

如果你把一个现有的技能传递给upskill eval命令，它会为这个技能生成测试案例，然后用这些案例来评估模型。这些测试案例通常是简单的输入/输出对，用来验证AI智能体是否真正理解了任务：

{
  "cases": [
    {
      "input": "为针对H100的CUDA内核创建一个build.toml文件",
      "expected": {"contains": "9.0"}
    },
    {
      "input": "编写一个带有正确包含头文件的基本CUDA内核模板",
      "expected": {"contains": "cuda_runtime.h"}
    }
  ]
}

我们还可以测试一个技能在不同模型上的表现：

upskill eval ./skills/kernel-builder-cuda-kernels/ --model haiku --m kimi --runs 5

Evaluating kernel-builder-cuda-kernels across 2 model(s)
3 test case(s), 5 run(s) per model

haiku
Pass rate: 4/5 (80%)
Avg assertions: 2.8/3

sonnet
Pass rate: 5/5 (100%)
Avg assertions: 3.0/3

┏━━━━━━━━┳━━━━━━━━━━━┳━━━━━━━━━━━━━━━━┳━━━━━━━━━━━━┓
┃  Model ┃ Pass Rate ┃ Avg Assertions ┃ Avg Tokens ┃
┡━━━━━━━━╇━━━━━━━━━━━╇━━━━━━━━━━━━━━━━╇━━━━━━━━━━━━┩
│  haiku │     4/5   │      2.8/3     │     1250   │
│  kimi  │     5/5   │      3.0/3     │     1890   │
└────────┴───────────┴────────────────┴────────────┘

这个评估结果能帮助我们找到成本与性能的最佳平衡点：也许对于你的业务场景，Haiku模型在技能加持下已经足够好用，这样就能为你节省大量的API调用成本。

未来展望与风险前瞻

我们已经展示了upskill如何能创建出经过验证的技能，将专业领域的知识从强大模型传递给更经济的模型。而kernel-builder这个技能，只是冰山一角。

你可以尝试更多可能性：

为你的内部工具生成专属技能：让你的内部运营工具更聪明、更自动化。
构建你的代码库技能库：把团队积累的代码规范、最佳实践沉淀下来，赋能给AI。
捕捉团队的“隐性知识”：把那些只存在于老员工头脑中的宝贵经验，转化成AI可学习的技能。
跨模型性能基准测试：找到最适合你成本预算和性能需求的AI模型组合。

这种方法适用于任何需要你反复编写详细提示词的专业任务。更棒的是，这些技能是可移植的，可以在Claude Code、Codex、Cursor等支持智能体技能规范的工具中通用。

风险与合规性提醒：
在利用这些AI智能体技能提升效率的同时，我们也要时刻关注数据安全和合规性。尤其是在处理用户数据、商业敏感信息时，务必确保所使用的AI模型和技能文件符合国家及国际相关数据保护法规。同时，随着AI技术日新月异，模型和工具的迭代速度非常快。本教程基于2026年的技术前沿，但未来技术发展可能带来新的操作方式或最佳实践，请各位读者保持学习和更新，以确保所用技能的时效性。在复杂的国际贸易环境中，技术工具的选用也要考虑到潜在的地缘政治风险，确保供应链和数据链路的稳健可靠。