极速搞定智体技能赋能!小模型性能暴增45%

各位跨境战友们,大家好!我是你们的老朋友,也是圈子里的实战专家和导师。今天,咱们不聊别的,就来好好扒一扒AI智能体(Agent)技能这个新玩法,看看它如何能帮我们的跨境事业“降本增效”,把好钢用在刀刃上。
新媒网跨境获悉,在瞬息万变的全球市场中,智能化工具已经成为我们不可或缺的左右手。如何让这些工具更聪明、更高效,正是我们今天要探讨的核心。
AI智能体技能,到底是个什么新鲜玩意儿?
你可能听过“AI Agent”这个词,它就是我们的“智能助手”。而“智能体技能”,简单来说,就是给这些智能助手量身定制的“武功秘籍”或“专业教材”。
想象一下,我们跨境卖家日常会遇到各种复杂任务:比如针对特定市场,如何撰写高效的商品描述?如何优化广告投放策略?甚至是如何让AI模型更好地理解和处理海量的图片数据?这些都不是AI“随便”就能搞定的。
传统的做法是,每次都得给AI写一大段详细指令,或者换用更强大的AI模型,但成本也随之飙升。而“智能体技能”的出现,就像是把这些“专家级经验”和“操作手册”打包,以文件形式预先存好,需要时直接给AI调用。这样,不仅方便生成和共享,更关键的是,它能让AI在特定领域或处理那些高难度问题时,表现得更加出色。它专门用来解决那些AI本身不易处理的“硬核”问题,而不是那些轻而易举的小任务。
这篇文章,咱们就用实战案例来手把手教你,如何利用名为“upskill”的利器,把昂贵、顶级的AI模型(比如Anthropic公司的大模型)所掌握的“独门绝技”,高效地“传授”给那些成本更低、甚至能在你本地电脑上运行的小型AI模型。
用咱们的话说,这就是一套“以小博大”、“降维打击”的策略。
AI智能体技能,为跨境卖家带来什么?
AI智能体技能的优势,核心在于两点:
其一,你可以用它来驱动顶级的AI模型(比如Opus 4.5或同级别的SOTA模型),去攻克目前为止最复杂的商业难题。比如,在数据分析、市场预测等深水区,让AI发挥出最大潜能。
其二,也是更激动人心的,你能将那些成本较低、甚至能在你个人电脑上跑起来的AI模型,通过“技能加持”,使其处理复杂问题的能力大幅提升。这就像给你的“经济适用型”员工,配备了“专家级”的知识库,让他也能干出“高大上”的活儿。
今天,我们就聚焦第二种情况。通过新工具upskill,教你如何生成并评估AI智能体技能,然后将这些技能赋能给更小巧、更经济的AI模型。我们将以编写CUDA内核(CUDA Kernels)这项专业技术为例进行剖析。虽然听起来有些技术性,但原理是相通的:它能有效降低我们使用AI的成本,让小型模型也能处理过去只有大型模型才能胜任的、特定领域甚至高度专业化的问题。
AI智能体技能:如何将顶尖AI的“绝活”传授给“平价”AI?
我们第一次尝试基于现有文档制作一个简单的技能时,发现它确实能提升某些模型的表现,但并非对所有模型都有效。有时甚至会降低性能,或增加token(处理单元)的消耗。
(上图展示了模型在有无基础技能情况下的性能对比。)
那么,究竟如何才能用“upskill”工具来提升AI助手的硬核能力,并准确衡量效果呢?别急,我们一步步来。
第一步:让“老师傅”Claude Opus 4.5,打造核心技能
首先,我们请出“老师傅”——Anthropic公司的Claude Code。通过与它互动,让它逐步构建一个核心的“内核”技能,并记录下整个过程。
我们在这个过程中,不断地给出指令、验证结果,甚至提供相关的文档链接。这种“看似笨拙”的迭代过程,恰恰能暴露模型最初面临的挑战。你可以反复进行这个环节,尝试用技能草稿来解决问题,并用小型模型进行测试。每次迭代后,你都可以引导智能体优化技能,并在小型模型上继续验证。
这里,新媒网跨境了解到,核心思想是,由最强大的AI模型来“演示”并“总结”其解决复杂问题的路径,形成一份“行动轨迹”或“实战经验”。
第二步:从“老师傅”的经验中,提炼智能体技能
一旦“老师傅”模型完成了任务,下一步就是把它的“独门秘籍”提炼成可复用的技能文件。这里有几种常见做法:
- 即时指令: 在同一会话中,直接指示AI智能体,根据它刚刚完成的任务,生成一个技能文件。
- 专业工具辅助: 使用例如Anthropic提供的“技能创建器”(skill creator)工具,无论是直接在智能体会话中,还是通过导出的“行动轨迹”在新会话中创建。
- upskill工具加持: 利用我们今天的主角——upskill工具,它可以根据“行动轨迹”自动创建技能。
通常来说,前两种方法能生成可用的技能。但问题在于,我们并不知道AI智能体带上这个技能后,实际表现到底如何。这时,upskill的价值就体现出来了,它不仅能生成技能,还会基于“行动轨迹”自动生成测试案例。然后,它会对比两种场景下的结果:一种是直接使用“行动轨迹”(即原始模型表现),另一种是应用了新技能后的表现。
通过评估,我们可以看到,即便是原始的“老师傅”模型(比如Claude Opus),在有无技能的情况下,性能表现是基本一致的。这说明技能文件成功捕捉到了这项任务的精髓,非常棒!
(上图展示了“老师傅”模型在有无技能时的评估结果,性能保持一致,说明技能提炼成功。)
第三步:将技能赋能给开源、小型或更经济的模型
最后一步,就是把我们精心打造的技能,传授给那些我们打算实际使用的工具或模型。目前,主流的AI编程工具,比如Codex、Cursor、Opencode等,在技能文件的格式上已经形成了统一规范:通常是一个目录,路径为{agent}/skills/{skill_name}/SKILL.md。我们只需将技能目录复制到这个位置即可。
通过upskill工具,我们能够将一个技能文件和一系列待评估的模型传递给eval命令。upskill便会自动在这些模型上,分别在有无技能的情况下运行测试案例,并比较它们的性能表现。
我们可以清楚地看到,这个技能确实提升了一些开源模型的准确性,但并非对所有模型都有效。
(上图显示了技能对不同开源模型准确率的影响,部分模型效果显著。)
在这种情况下,我们可能需要对某些模型的技能进行进一步迭代优化,可以尝试使用upskill generate –from {skill}命令来重新生成技能。
其实,AI智能体技能的价值远不止于模型性能的提升。很多时候,AI智能体无论有没有技能,都能达到一定的准确率,但关键在于它们需要消耗多少token(也就是我们常说的“算力”成本)。对于那些需要反复执行的任务,我们当然希望AI智能体在保持相同准确率的前提下,消耗更少的token。
下面的结果进一步揭示了技能的另一层价值。某些模型在应用技能后,显著降低了token消耗,而另一些模型则增加了消耗。举个例子,对于moonshotai/Kimi-K2-Thinking模型来说,这个技能在准确率和token使用上都表现出色,效果显著。但对于Claude Opus 4.5模型而言,性能提升不明显,反而token消耗有所增加,那显然我们就不应该用这个技能去搭配Claude Opus 4.5。
(上图展示了技能对不同模型token消耗的影响,Kimi模型表现亮眼。)
简而言之,就是多尝试、多评估!使用upskill eval或其他类似的工具,来对比你的模型在有无技能时的实际表现,才能找到最佳的“搭配组合”。
以上,就是利用AI智能体技能,去解决复杂问题的端到端“升级”全流程。
想要亲自试试?操作也很简单:
# 安装 upskill 工具
pip install upskill
# 或者使用 uvx 命令进行一次性运行
uvx upskill --help
# 基于AI智能体的操作轨迹来生成技能
upskill generate "write nvidia kernels" --from ./trace.md
# 评估不同模型在特定技能上的表现
upskill eval ./skills/my-skill/ --model haiku --model sonnet
# 为本地模型生成技能,注意这里可以指定本地服务器地址
upskill generate "parse YAML" --model opus --eval-model "unsloth/GLM-4.7-Flash-GGUF:Q4_0" --eval-base-url http://localhost:8080/v1
深入剖析:AI智能体如何掌握编写CUDA内核的“真功夫”?
前面我们大致了解了如何“升级”AI智能体的能力。现在,咱们来深入看看如何解决一个具体的应用场景:编写CUDA内核。我们不只是停留在生成代码,而是要让AI智能体掌握完整的内核构建工作流,包括项目结构、build.toml配置、针对特定硬件架构的优化,以及PyTorch的绑定方法。
这个教程就是要展示,upskill如何能创建出经过验证、真正管用的技能。
这个名为kernel-builder-cuda-kernels的技能,能让Claude(Anthropic公司的大模型)掌握CUDA开发所需的方方面面:比如要针对哪种GPU架构进行开发、项目结构应该如何搭建、何时使用共享内存、何时使用寄存器,以及如何编写PyTorch绑定等。
有了这个技能,你就可以直接对Claude下达这样的指令:
为H100 GPU构建一个融合了LayerNorm和GELU的优化内核。
Claude就会自动生成完整的项目结构、CUDA实现代码和构建配置——而且完全遵循kernel-builder工具预期的规范。
这可不是简单地生成一些模板代码。这个技能里面,包含了实实在在的领域专业知识:比如H100的计算能力是9.0,共享内存需要按照128字节对齐,异步内存拷贝需要__CUDA_ARCH__ >= 900等。这些知识点,如果让开发者去查阅文档,可能要耗费数小时。现在,它们被打包成大约500个token的技能文件,需要时随取随用,极大地提高了效率。
准备工作:环境搭建与安装
首先,安装upskill工具:
pip install upskill
# 或者使用 uvx 命令进行一次性运行
uvx upskill --help
接着,设置你的API密钥:
export ANTHROPIC_API_KEY=sk-ant-...
export HF_TOKEN=hf_...
大功告成!upskill工具默认使用Anthropic公司的Claude Opus-4.5模型作为技能生成器,但它也支持通过OpenAI兼容接口连接OpenAI和本地模型。我们的策略是,用那些更昂贵、质量更高的模型来生成技能,然后用这些技能去驱动那些小巧、经济的模型。这就像是现代版的“劫富济贫”,用“富”的智慧去普惠“贫”的效率。
技能生成实操
接下来,咱们手把手操作,生成一个技能,教会AI智能体如何利用HuggingFace的kernels库来构建CUDA内核。
生成核心技能
从一个清晰的任务描述开始:
upskill generate "build optimized CUDA kernels for PyTorch using HuggingFace kernel-builder"
当然,上面我们是用upskill直接生成,你也可以选择其他AI智能体或聊天工具,然后导出操作轨迹文件:
upskill generate "write kernels" --from <agent-trace>.md
或者,你也可以从一个现有的技能文件开始,在其基础上进行改进和添加:
upskill generate "add more error handling and edge cases" --from ./skills/kernel-builder-cuda-kernels/
upskill会自动加载现有技能,应用你的改进,然后重新评估,确保这些改动确实带来了帮助。
upskill会完成技能创建、测试案例生成、性能评估,并根据失败情况进行优化:
Generating skill with sonnet...
Generating test cases...
Evaluating on sonnet... (attempt 1) 60% -> 95% (+35%) OK
kernel-builder-cuda-kernels
Build optimized CUDA kernels for PyTorch using HuggingFace kernel-builder.
SKILL.md ~520 tokens
baseline ████████████ 60%
with skill ███████████████████ 95% (+35%)
Saved to ./skills/kernel-builder-cuda-kernels
这里的“baseline”(基线)显示的是模型在没有任何技能辅助下的表现。“with skill”(带技能)结果则是在技能注入上下文后的表现。35%的提升,明确告诉我们,这个技能确实有效!
这个技能会以目录形式保存,遵循智能体技能(Agent Skills)规范:
./skills/kernel-builder-cuda-kernels/
├── SKILL.md # 技能核心指令 (~520 tokens)
└── skill_meta.json # 技能元数据和测试案例
你可以打开SKILL.md文件,看看upskill到底生成了什么内容:
---
name: kernel-builder-cuda-kernels
description: Build optimized CUDA kernels for PyTorch using HuggingFace kernel-builder.
---
# 使用 kernel-builder 构建 CUDA 内核
## 概述
本指南详细介绍了如何利用HuggingFace的kernel-builder工具,为PyTorch模型创建优化的CUDA内核。内容涵盖项目设置、内核实现,以及针对NVIDIA H100等特定GPU架构的构建方法。
## 项目结构
```text
project/
├── build.toml # 构建配置
├── kernel_src/ # CUDA内核实现代码
│ ├── attention.cu
│ ├── layernorm.cu
│ └── geglu.cu
└── torch-ext/ # PyTorch C++绑定
└── torch_binding.cpp
构建配置
创建 build.toml 文件来定义你的内核包:
[general]
name = "diffuser_kernels"
backends = ["cuda"]
[general.cuda]
# H100 的计算能力为 9.0
capabilities = ["9.0"]
...
在不同模型上进行评估
最关键的测试环节来了:这个技能到底能不能帮助我们本地的、或者更便宜的模型来构建内核呢?
# 启动一个兼容 OpenAI 接口的本地服务器,并带上网页界面:
llama-server -hf unsloth/GLM-4.7-Flash-GGUF:Q4_K_M
# 在本地模型(llama.cpp 服务器)上进行评估
upskill eval ./skills/my-skill/ --model "unsloth/GLM-4.7-Flash-GGUF:Q4_0" --base-url http://localhost:8080/v1
Generating skill with sonnet...
Generating test cases...
Evaluating on "unsloth/GLM-4.7-Flash-GGUF:Q4_0"... (attempt 1) 40% -> 85% (+45%) OK
baseline ████████░░░░░░░░░░░░ 40%
with skill █████████████████░░░ 85% (+45%)
Saved to ./skills/kernel-builder-cuda-kernels
令人振奋!对“unsloth/GLM-4.7-Flash-GGUF:Q4_0”模型而言,性能提升了45%!这说明这个技能成功地将强大的领域知识,从一个能力超群的模型,有效地传递给了这个运行更快、成本更低的模型。
新媒网跨境认为,一个对较弱模型都奏效的技能,对更强的模型肯定也能发挥作用。这正是AI智能体技能的核心价值所在:利用昂贵的模型来创造知识和技能,然后将这些技能部署到那些便宜的、甚至本地运行的模型上,实现知识的“普惠”。
upskill工具的评估机制揭秘
upskill采用了一种“师生”模式来评估模型。在这里,“老师”模型负责生成测试案例,而“学生”模型则接受这些测试的检验。
- 老师模型(比如Opus)负责生成核心技能。
- 测试案例由老师模型(Opus)根据任务描述自动生成。
- 学生模型(比如本地模型)会在有无技能的情况下,分别进行评估。
- 技能提升度(Skill Lift)则衡量了性能的提升幅度。
如果你把一个现有的技能传递给upskill eval命令,它会为这个技能生成测试案例,然后用这些案例来评估模型。这些测试案例通常是简单的输入/输出对,用来验证AI智能体是否真正理解了任务:
{
"cases": [
{
"input": "为针对H100的CUDA内核创建一个build.toml文件",
"expected": {"contains": "9.0"}
},
{
"input": "编写一个带有正确包含头文件的基本CUDA内核模板",
"expected": {"contains": "cuda_runtime.h"}
}
]
}
我们还可以测试一个技能在不同模型上的表现:
upskill eval ./skills/kernel-builder-cuda-kernels/ --model haiku --m kimi --runs 5
Evaluating kernel-builder-cuda-kernels across 2 model(s)
3 test case(s), 5 run(s) per model
haiku
Pass rate: 4/5 (80%)
Avg assertions: 2.8/3
sonnet
Pass rate: 5/5 (100%)
Avg assertions: 3.0/3
┏━━━━━━━━┳━━━━━━━━━━━┳━━━━━━━━━━━━━━━━┳━━━━━━━━━━━━┓
┃ Model ┃ Pass Rate ┃ Avg Assertions ┃ Avg Tokens ┃
┡━━━━━━━━╇━━━━━━━━━━━╇━━━━━━━━━━━━━━━━╇━━━━━━━━━━━━┩
│ haiku │ 4/5 │ 2.8/3 │ 1250 │
│ kimi │ 5/5 │ 3.0/3 │ 1890 │
└────────┴───────────┴────────────────┴────────────┘
这个评估结果能帮助我们找到成本与性能的最佳平衡点:也许对于你的业务场景,Haiku模型在技能加持下已经足够好用,这样就能为你节省大量的API调用成本。
未来展望与风险前瞻
我们已经展示了upskill如何能创建出经过验证的技能,将专业领域的知识从强大模型传递给更经济的模型。而kernel-builder这个技能,只是冰山一角。
你可以尝试更多可能性:
- 为你的内部工具生成专属技能:让你的内部运营工具更聪明、更自动化。
- 构建你的代码库技能库:把团队积累的代码规范、最佳实践沉淀下来,赋能给AI。
- 捕捉团队的“隐性知识”:把那些只存在于老员工头脑中的宝贵经验,转化成AI可学习的技能。
- 跨模型性能基准测试:找到最适合你成本预算和性能需求的AI模型组合。
这种方法适用于任何需要你反复编写详细提示词的专业任务。更棒的是,这些技能是可移植的,可以在Claude Code、Codex、Cursor等支持智能体技能规范的工具中通用。
风险与合规性提醒:
在利用这些AI智能体技能提升效率的同时,我们也要时刻关注数据安全和合规性。尤其是在处理用户数据、商业敏感信息时,务必确保所使用的AI模型和技能文件符合国家及国际相关数据保护法规。同时,随着AI技术日新月异,模型和工具的迭代速度非常快。本教程基于2026年的技术前沿,但未来技术发展可能带来新的操作方式或最佳实践,请各位读者保持学习和更新,以确保所用技能的时效性。在复杂的国际贸易环境中,技术工具的选用也要考虑到潜在的地缘政治风险,确保供应链和数据链路的稳健可靠。
学习资源
- Upskill工具的开源代码库:

- AI智能体技能规范详情:

- HuggingFace的kernel-builder工具:

新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。
本文来源:新媒网 https://nmedialink.com/posts/quick-boost-agent-skill-45-perf-small-ai.html


粤公网安备 44011302004783号 











