GR00T新功能实测：5步吃透智能机器人部署红利！

各位跨境圈的实战派朋友们，咱们今天聊点硬核的！在AI浪潮席卷全球的当下，机器人技术正成为下一个淘金热点。NVIDIA（英伟达）最近推出了一个重磅武器——Isaac GR00T（通用机器人00技术）N1.5版本，这可不是一个简单的升级，它预示着我们离智能、适应性强的机器人又近了一步。
image/png

Isaac GR00T，顾名思义，是一个为机器人基础模型和数据管线打造的研发平台。它的目标很明确，就是要加速智能、高适应性机器人的诞生。新媒网跨境获悉，这次发布的GR00T N1.5，是GR00T N1的首次重大更新。GR00T N1本身已经是全球首个针对通用人形机器人推理和技能开放的基础模型了，而N1.5更进一步，它是一个跨形态的模型，能够处理语言和图像等多模态输入，让机器人在各种复杂环境下完成精细的操作任务。

这背后最吸引人的，就是它强大的“后训练”能力，可以根据特定的机器人形态、任务和环境进行灵活调整，就好比给机器人装上了“学习大脑”。今天，咱们就手把手教大家，如何利用来自单台SO-101机械臂的遥操作数据，对GR00T N1.5进行“后训练”（也就是大家常说的微调）。

第一步：环境搭建，磨刀不误砍柴工

GR00T N1.5现在对各种机器人形态的开发者都开放了，特别友好的是，通过经济实惠、开源的LeRobot SO-101机械臂，就能轻松地进行微调和适配。这得益于它独特的“EmbodimentTag”系统，它能让模型在不同机器人平台上无缝定制。这对于咱们这些想在机器人领域大展身手的爱好者、研究者和工程师来说，简直是福音，能把先进的推理和操作能力，应用到咱们自己的硬件上。

但在咱们正式开始前，务必先检查一下自己的设备，确保满足所有的先决条件，这样才能顺顺利利地跑起来。

1.1 克隆Isaac-GR00T代码库

首先，咱们得把NVIDIA的Isaac-GR00T项目代码拿到本地。打开你的终端或命令行工具，输入：

git clone https://github.com/NVIDIA/Isaac-GR00T
cd Isaac-GR00T

这就像把一个工具箱从云端搬到你的电脑里，然后进入这个工具箱的目录。

1.2 搭建运行环境

为了让GR00T N1.5跑得稳当，咱们需要创建一个独立的Python运行环境，避免和电脑里其他项目产生冲突。用conda来创建和激活这个环境：

conda create -n gr00t python=3.10
conda activate gr00t
pip install --upgrade setuptools
pip install -e .[base]
pip install --no-build-isolation flash-attn==2.7.1.post4

这里咱们创建了一个名为gr00t的环境，指定了Python 3.10版本。然后激活它，接着安装必要的依赖包，尤其是flash-attn，它对提升模型训练效率至关重要。

第二步：数据准备，模型的“粮食”

就像人吃饭一样，模型也需要“数据”来学习。咱们要用LeRobot数据集来微调GR00T N1.5。这次教程，咱们就以“桌面清理”任务为例。需要特别注意的是，SO-100或SO-101机械臂的数据并不在GR00T N1.5的初始预训练范围里，所以咱们要把它当作一个全新的机器人形态（new_embodiment）来训练。
image/png

2.1 获取你的数据集

有两种方式获取数据：
第一种，你可以跟着官方说明，自己动手创建一套定制数据集（强烈推荐，这样更能贴合你的实际应用场景）。
第二种，你可以直接从全球知名的AI社区平台Hugging Face上下载名为so101-table-cleanup的数据集。--local-dir参数是指定数据集保存到你本地机器的哪个位置。

huggingface-cli download \
    --repo-type dataset youliangtan/so101-table-cleanup \
    --local-dir ./demo_data/so101-table-cleanup

这段命令就是从Hugging Face把咱们需要的数据集下载下来，放到./demo_data/so101-table-cleanup这个文件夹里。

2.2 配置模态文件

modality.json文件是模型的“说明书”，它会告诉GR00T关于状态和动作模态的额外信息，让数据变得“GR00T兼容”。

如果你是双摄像头设置，比如咱们这次的SO101案例，你需要把getting_started/examples/so100_dualcam__modality.json这个文件复制到数据集的<DATASET_PATH>/meta/modality.json路径下：

cp getting_started/examples/so100_dualcam__modality.json ./demo_data/so101-table-cleanup/meta/modality.json

小贴士： 如果你使用的是单摄像头设置，比如so100_strawberry_grape数据集，那就应该复制getting_started/examples/so100__modality.json文件：

cp getting_started/examples/so100__modality.json ./demo_data/<DATASET_PATH>/meta/modality.json

完成这些步骤后，咱们就可以用GR00T的LeRobotSingleDataset类来加载数据集了。你可以运行下面这个示例脚本来验证一下数据集是否加载成功，并且可视化其中的状态和动作：

python scripts/load_dataset.py --dataset-path ./demo_data/so101-table-cleanup --plot-state-action --video-backend torchvision_av

第三步：模型微调，让机器人更“聪明”

数据准备妥当，接下来就是核心环节——微调GR00T N1.5模型，让它学会咱们希望它完成的任务。新媒网跨境认为，这一步是实现机器人智能化的关键。

咱们可以通过Python脚本scripts/gr00t_finetune.py来执行微调。在你的终端输入以下命令即可开始：

python scripts/gr00t_finetune.py \
    --dataset-path ./demo_data/so101-table-cleanup/ \
    --num-gpus 1 \
    --output-dir ./so101-checkpoints \
    --max-steps 10000 \
    --data-config so100_dualcam \
    --video-backend torchvision_av

这里面，--dataset-path指向咱们准备好的数据集，--num-gpus 1表示使用一块GPU进行训练，--output-dir是训练后模型权重保存的目录，--max-steps 10000设定了最大训练步数，--data-config指明了数据配置。

实用小提示： 默认的微调设置大概需要25G显存。如果你的显存不够，别担心！你可以在gr00t_finetune.py脚本后面加上--no-tune_diffusion_model这个参数，这样可以显著降低显存占用。

第四步：开环评估，预演机器人表现

模型训练完成，也生成了咱们微调后的策略。在正式部署到实体机器人之前，咱们得先“预演”一下它的表现，这就是所谓的开环评估。它能让咱们可视化模型的决策过程，看看它有没有学到咱们教它的东西。

运行下面的命令，就可以进行可视化评估了：

python scripts/eval_policy.py --plot \
    --embodiment_tag new_embodiment \
    --model_path ./so101-checkpoints \
    --data_config so100_dualcam \
    --dataset_path ./demo_data/so101-table-cleanup/ \
    --video_backend torchvision_av \
    --modality_keys single_arm gripper

这个命令会加载咱们训练好的模型，并根据数据集中的例子来展示机器人的预期行为。如果一切顺利，恭喜你！你已经成功地在新的机器人形态上微调了GR00T-N1.5！

第五步：实际部署，让机器人动起来

经过前面的微调和评估，现在终于到了激动人心的时刻——把咱们训练好的策略部署到实体机器人上，让它在真实世界中执行任务！

5.1 启动策略服务器

首先，咱们需要把训练好的策略作为一个服务运行起来：

python scripts/inference_service.py --server \
    --model_path ./so101-checkpoints \
    --embodiment-tag new_embodiment \
    --data-config so100_dualcam \
    --denoising-steps 4

这就像启动了一个“大脑服务器”，随时准备接收指令并告诉机器人该怎么做。

5.2 运行客户端，连接机器人

接下来，打开一个新的终端窗口，作为客户端来连接你的SO-101机器人并开始评估。记住，你需要根据你实际的机器人配置，更新端口、ID以及摄像头的参数！新媒网跨境了解到，这一步的参数配置尤其关键，务必仔细核对。

python getting_started/examples/eval_lerobot.py \
    --robot.type=so100_follower \
    --robot.port=/dev/ttyACM0 \
    --robot.id=my_awesome_follower_arm \
    --robot.cameras="{ wrist: {type: opencv, index_or_path: 9, width: 640, height: 480, fps: 30}, front: {type: opencv, index_or_path: 15, width: 640, height: 480, fps: 30}}" \
    --policy_host=10.112.209.136 \
    --lang_instruction="Grab pens and place into pen holder."

在这段命令中：

--robot.port是你的机器人连接端口，比如/dev/ttyACM0。
--robot.id是给你的机器人起个名字，比如my_awesome_follower_arm。
--robot.cameras是配置你的摄像头，包括类型、索引、分辨率和帧率。你需要根据你实际的摄像头设备进行调整。
--policy_host是你的策略服务器运行的IP地址。
--lang_instruction是给机器人的语言指令，比如“抓起笔并放到笔筒里”。

由于咱们微调GR00T-N1.5时使用了不同的语言指令，现在你就可以通过数据集中的任务提示来引导策略了，比如输入“Grab tapes and place into pen holder”（抓起胶带并放到笔筒里）。

更详细的每一步操作指南，你可以随时查阅官方GitHub仓库：https://github.com/NVIDIA/Isaac-GR00T/tree/main/getting_started。

风险前瞻与时效提醒：

各位实战派朋友们，在享受技术带来的便利时，咱们也得提前预见潜在的风险并关注时效性：

数据质量与合规性： 模型的效果高度依赖于训练数据的质量。请确保您使用的数据集真实、准确、无偏，并符合相关的数据隐私和伦理规范。特别是在商业应用中，数据合规性是不可逾越的红线。
硬件兼容与环境适应： 尽管GR00T N1.5具有强大的适应性，但实际部署到不同硬件和复杂环境时，仍可能遇到兼容性挑战。部署前务必进行充分测试，并考虑环境光照、障碍物等因素对机器人视觉和操作的影响。
技术迭代迅速： 2025年，人工智能和机器人技术发展日新月异。本教程基于GR00T N1.5版本，未来可能会有新的版本、更优化的方法和工具出现。建议大家持续关注NVIDIA官方社区和GitHub仓库，及时获取最新信息，确保您的技术始终保持领先。