NVIDIA AI：半导体生产力狂飙9.9%！模型构建时间减半！

在当今世界，半导体芯片作为各种现代电子设备的核心，其制造工艺的精密度达到了前所未有的程度。从智能手机到数据中心，每一个硅片都承载着复杂的功能，而其中哪怕是微小的缺陷，都可能决定产品的成败。随着半导体器件的复杂性持续攀升，如何可靠地检测并分类这些缺陷，已成为全球半导体产业面临的关键瓶颈。长期以来，芯片制造商一直依赖卷积神经网络（CNNs）来自动化缺陷分类（ADC）过程。然而，随着制造规模的扩大和多样化，基于CNN的方法正日益显现其局限性，例如需要大量的标注数据集、频繁的再训练，以及在新缺陷类型面前泛化能力不足等问题。

当前，业界正积极探索如何通过生成式人工智能（AI）驱动的自动缺陷分类技术，有效克服这些挑战。尤其值得关注的是，结合英伟达（NVIDIA）Metropolis视觉语言模型（VLMs）和视觉基础模型（VFMs），以及NVIDIA TAO微调工具包，可以显著提升缺陷分类的现代化水平。通过对这些先进技术的深入了解，国内半导体及相关跨境行业的从业者，可以更好地把握前沿技术动态，为我国智能制造和产业升级提供有益借鉴。

传统卷积神经网络（CNNs）在半导体缺陷分类中的局限性

卷积神经网络（CNNs）作为半导体工厂缺陷检测的核心技术，多年来在光学和电子束检测、光刻分析等领域发挥了重要作用。它们在从海量数据中提取视觉特征方面表现出色，然而，制造商们在数据需求、语义理解和模型再训练方面，仍面临着持续的挑战。

高昂的数据需求

要实现高精度分类，通常每种缺陷类型都需要数千张标注图像。对于稀有或新兴的缺陷类型，往往难以获得足够的样本进行有效训练，这使得模型难以全面覆盖所有潜在问题。

有限的语义理解能力

尽管CNNs能够捕捉视觉特征，但它们难以解释缺陷的上下文，无法进行深层次的根本原因分析，也难以整合多模态数据。此外，CNNs在区分视觉上相似但操作上截然不同的缺陷模式时也力不从心，例如区分晶圆中心缺陷与局部缺陷。这种对语义理解的欠缺，限制了其在复杂场景下的应用。

频繁的模型再训练

实际的制造环境是动态变化的。工艺波动、新设备的引入以及产品线的不断演进，都要求模型频繁进行再训练，以识别新的缺陷类型和不同的成像条件。这些限制迫使工厂在某些环节仍依赖人工检测，这不仅成本高昂、一致性差，也难以满足当前高吞吐量制造的需求。

视觉语言模型（VLMs）与视觉基础模型（VFMs）赋能自动缺陷分类现代化

为了应对上述挑战，英伟达公司正将视觉语言模型（VLMs）、视觉基础模型（VFMs）和自监督学习技术，应用于半导体制造的多个阶段。

下图展示了这些模型在前端工艺（FEOL）和后端封装过程中的部署方式。当前，VLMs被用于分类晶圆图图像，而VFMs则用于分类裸晶（die-level）图像，包括光学、电子束和后端光学显微镜（OM）检测数据。通过进一步的训练，VLMs在裸晶层面检测方面也展现出巨大的潜力。
Different image types that can potentially be used for an automatic defect classification (ADC) system enhanced with vision language models (VLMs) and vision foundation models (VFMs) - wafer defect maps, e-beam, backend, and optical microscopy images.
图1：可用于增强型自动缺陷分类（ADC）系统的不同图像类型示例，这些系统结合了视觉语言模型（VLMs）和视觉基础模型（VFMs）。其中包括晶圆缺陷图以及光学、电子束和光学显微镜（OM）图像中发现的各种裸晶级缺陷。

晶圆级智能：视觉语言模型（VLMs）的应用

晶圆图提供了整个晶圆上缺陷分布的空间视图。视觉语言模型（VLMs）将先进的图像理解能力与自然语言推理相结合。经过精细调整后，英伟达公司的推理型VLM，例如Cosmos Reason，能够：

解读晶圆图图像： 识别宏观缺陷模式。
生成自然语言解释： 为检测结果提供清晰的文本描述。
进行交互式问答： 工程师可以通过自然语言与模型进行互动。
参照“黄金标准”进行对比： 对比测试图像与标准参考图，进行初步的根本原因分析。

图2：左侧展示了Cosmos Reason VLM如何自动将此识别为中心环形晶圆缺陷，并将其归因于化学污染。右侧展示了自动标注方法如何加速训练过程，并有助于简化缺陷分析和减少人工目视检查工作。

采用这种方法，能够带来多方面的优势：

优势	描述
少样本学习	VLMs仅需少量标注样本即可进行微调，能够快速适应新的缺陷模式、工艺变化或产品变体，显著降低对大规模标注数据的依赖。
可解释性	如图2所示，Cosmos Reason能够生成可解释的结果，工程师可以使用自然语言与模型互动。例如，提问“这张晶圆图的主要缺陷模式是什么？”可能会得到“检测到中心环形缺陷，可能由化学污染引起。”这种语义推理能力超越了传统CNNs，帮助工程师快速识别潜在根源，加速纠正措施，并减少人工审查的工作量。
自动化数据标注	VLMs能够为下游的ADC任务生成高质量的标签，从而降低模型开发的时间和成本。在实际应用中，这种方法可以将模型构建时间比传统手动标注流程缩短多达一倍。
时间序列与批次分析	VLMs具备处理静态图像和视频序列的能力，使其能够主动监测随时间变化的工艺异常，并在错误导致严重故障之前进行干预。在一项研究中，VLMs在“正常”和“异常”两种情况下均达到了高精度，性能优于传统的基于CNN的方法。

图3：Cosmos Reason 1模型从数据准备到监督式微调，再到量化和推理部署的端到端工作流程。

Cosmos Reason上手实践

以下是Cosmos Reason 1的微调示例工作流程，涵盖从数据准备到监督式微调和晶圆图缺陷数据集评估的全过程：

访问Cosmos Cookbook晶圆图异常分类指南： 您可以在相关技术社区找到详细的指导。
创建样本训练数据集： 下载Mir Lab提供的WM-811k开放晶圆图数据集。使用Cookbook中提供的脚本生成样本数据集及相应的标注。
通过监督式微调（SFT）进行后训练： 按照cosmos-reason1 GitHub仓库中提供的安装说明，安装cosmos-rl软件包，以便使用精心整理的训练数据集进行微调。
部署结果： 在晶圆图缺陷分类数据上对Cosmos Reason进行微调，可将缺陷分类任务的准确率从零样本水平提升至96%以上。

裸晶级精度：视觉基础模型（VFMs）与自监督学习

随着器件特征不断缩小至微观尺度，半导体行业正持续突破物理极限。在这个层面，制造复杂性急剧增加。即使是极其微小的异常——无论是杂散颗粒、图案偏差还是材料缺陷——都可能导致芯片报废，直接影响良率和盈利能力。在这一高风险环境中，最大的瓶颈在于如何快速、准确地检测和分类缺陷。

多年来，CNNs一直支持这一工作流程，但它们在应对现代工厂日益增长的复杂性和数据需求方面却力不从心。训练用于制造的AI模型面临的核心挑战之一，是对大量、细致标注数据集的依赖。动态的工艺、不断演进的产品线以及持续涌现的新缺陷类型，使得维护一个完美标注的数据集变得不切实际。雪上加霜的是，数据集往往高度不平衡——正常样本的数量远远超过有缺陷的样本。

在这种背景下，使用领先的视觉基础模型（VFM），例如英伟达的NV-DINOv2，能带来显著优势：

优势	描述
自监督学习（SSL）	NV-DINOv2在数百万张未标注图像上进行训练，使其能够在标注数据稀缺的情况下，通过极少的再训练即可泛化到新的缺陷类型和工艺条件。
鲁棒的特征提取	该模型能够捕捉细粒度的视觉细节和高层次的语义信息，从而提高在不同制造场景下的分类准确性。
操作效率	通过减少对标注和频繁再训练的依赖，NV-DINOv2简化了在快速变化的工厂环境中缺陷检测系统的部署和维护。

然而，像NV-DINOv2这样的通用基础模型，在处理电子束和光学显微镜图像等工业任务所需的特定细节方面，仍有所欠缺。为达到最高精度，必须通过领域适应（domain adaptation）对模型进行专门化处理。

这通常是一个多阶段的工作流程：

通用VFM： 从强大、预训练的NV-DINOv2模型开始，该模型从大量多样化的数据集中学习了广泛的视觉理解能力。
领域适应： 使用大量未标注的领域特定数据集（例如来自半导体工厂的数百万张图像）对模型进行微调，使其与工业成像特性对齐。
下游任务微调： 应用少量标注图像对模型进行特定分类任务的微调，这一步骤被称为线性探测（linear probing）。

图4：构建领域适应视觉基础模型的三阶段NV-DINOv2工作流程。第一阶段（由英伟达提供）提供通用预训练模型；第二和第三阶段（由用户执行）通过最少的标注数据实现领域适应和特定任务的微调。

此过程的有效性在很大程度上取决于未标注领域数据集的大小和质量。这些数据集的规模可以从不到一百万张图像到数亿张不等，但仅凭数量还不够。在训练开始前，必须进行细致的数据清洗流程，以去除冗余、模糊或不相关的图像。

这种领域适应方法带来了显著的性能提升。在一家领先的半导体制造商进行的一项研究中，通过使用英伟达TAO工具包，将自监督学习（SSL）应用于NV-DINOv2，利用芯片生产多个层级收集的未标注图像。结果显示，整合SSL持续提升了性能，与未经SSL训练的模型相比，准确率提高了高达8.9%，从而带来了高达9.9%的生产力提升。

NV-DINOv2与自监督学习（SSL）上手实践

以下是使用SSL微调NV-DINOv2的端到端工作流程，涵盖从数据准备和领域适应到下游任务微调和部署。在此示例中，我们使用英伟达TAO工具包对未标注的印制电路板（PCB）图像进行SSL，以实现缺陷分类。NV-DINOv2工作流程遵循渐进式三阶段方法，最大限度地利用了大型未标注数据集的价值，同时将手动标注的需求降低到仅数百个标注样本。

设置环境： 从NVIDIA NGC下载预装了所有依赖项的NVIDIA TAO Toolkit 6.0容器：

# Pull the TAO Toolkit 6.0 container from NGC
docker pull nvcr.io/nvidia/tao/tao-toolkit:6.0.0-pyt
# Run the container with GPU support
docker run --gpus all -it -v /path/to/data:/data \
nvcr.io/nvidia/tao/tao-toolkit:6.0.0-pyt /bin/bash

准备数据集： NV-DINOv2接受标准格式（JPG, PNG, BMP, TIFF, WebP）的RGB图像，存储在单个目录中。对于SSL领域适应，您只需未标注图像；无需任何标注。在我们的PCB检测示例中，使用了：
- 约400个用于评估的标注测试样本
- 约一百万张用于领域适应的未标注PCB图像
- 约600个用于下游微调的标注训练样本
按如下方式组织您的数据：
```
/data/
├── unlabeled_images/ # 用于SSL领域适应
├── train_images/ # 用于下游微调
│ ├── OK/
│ ├── missing/
│ ├── shift/
│ ├── upside_down/
│ ├── poor_soldering/
│ └── foreign_object/
└── test_images/ # 用于评估
```
数据清洗最佳实践： 在训练之前，执行细致的数据清洗过程，以去除冗余、模糊或不相关的图像。领域适应的有效性在很大程度上取决于未标注数据集的质量。

配置训练规范： 创建一个YAML规范文件，定义模型架构、数据集路径和训练参数：

model:
  backbone:
    teacher_type: "vit_l"
    student_type: "vit_l"
    patch_size: 14
    img_size: 518
    drop_path_rate: 0.4
  head:
    num_layers: 3
    hidden_dim: 2048
    bottleneck_dim: 384
dataset:
  train_dataset:
    images_dir: /data/unlabeled_images
  test_dataset:
    images_dir: /data/test_images
  batch_size: 16
  workers: 10
  transform:
    n_global_crops: 2
    global_crops_scale: [0.32, 1.0]
    global_crops_size: 224
    n_local_crops: 8
    local_crops_scale: [0.05, 0.32]
    local_crops_size: 98
train:
  num_gpus: 8
  num_epochs: 100
  checkpoint_interval: 10
  precision: "16-mixed"
optim:
  optim: "adamw"
  clip_grad_norm: 3.0

运行SSL训练进行领域适应： 使用TAO Launcher执行训练，使通用NV-DINOv2模型适应您的领域特定图像：

tao model nvdinov2 train \
-e /path/to/experiment_spec.yaml \
results_dir=/output/ssl_training \
train.num_gpus=8 \
train.num_epochs=100

执行下游任务微调： 在SSL领域适应之后，使用少量标注数据集对模型进行特定分类任务的微调。这一步骤（称为线性探测）仅需数百个标注样本：

tao model nvdinov2 train \
-e /path/to/finetune_spec.yaml \
train.pretrained_model_path=/output/ssl_training/model.pth \
dataset.train_dataset.images_dir=/data/train_images \
train.num_epochs=50

运行推理： 在测试图像上评估您的领域适应模型：

tao model nvdinov2 inference \
-e /path/to/experiment_spec.yaml \
inference.checkpoint=/output/ssl_training/model.pth \
inference.gpu_ids=[0] \
inference.batch_size=32

导出为ONNX格式以进行部署： 将训练好的模型导出为ONNX格式，用于生产部署：
```
tao model nvdinov2 export \
-e /path/to/experiment_spec.yaml \
export.checkpoint=/output/ssl_training/model.pth \
export.onnx_file=/output/nvdinov2_domain_adapted.onnx \
export.opset_version=12 \
export.batch_size=-1
```
导出的ONNX模型可以部署到NVIDIA TensorRT中进行优化推理，或集成到NVIDIA DeepStream流水线中进行实时视觉检测。

实践结果： 在PCB检测中，利用英伟达TAO工具包通过SSL微调NV-DINOv2，效果显著。通过使用约一百万张未标注图像进行SSL工业领域适应，以及600个训练样本和400个测试样本进行下游任务微调，缺陷检测的准确率从通用模型的93.84%跃升至98.51%。通过消除对标注和频繁再训练的需求，NV-DINOv2简化了在快速变化的工厂环境中缺陷检测解决方案的部署。

迈向智能工厂的未来

这些视觉模型在缺陷分类中的应用，不仅带来了即时的准确率提升，更为工厂内部的代理型AI系统奠定了基础。通过将加速计算与生成式AI相结合，英伟达公司正与领先的晶圆厂共同引入全新的自动缺陷分类（ADC）工作流程，有望重新定义先进制造中的良率改进和过程控制。

生成式AI通过简化半导体生产流程中的缺陷分析，显著缩短了模型部署时间。其少样本学习能力简化了持续的模型维护，提高了模型的鲁棒性，并使其易于针对不同的工厂环境进行微调。随着工厂每天从各种检测工具中生成数百万张高分辨率图像，自动化的ADC系统有望进一步提高分类准确率，减少人工工作量，并提升整体生产力。

除了缺陷检测，半导体制造商也开始采用基于NVIDIA Blueprint for Video Search and Summarization (VSS) 构建的视频分析AI智能体。这些智能体能够帮助监控工厂运营，提高工人安全，并改善制造现场的个人防护设备（PPE）和安全协议的合规性。

这些海外技术动态，对于国内的半导体制造、智能工厂建设以及相关跨境电商和技术服务提供商来说，都具有重要的参考价值。关注并学习这些前沿的AI技术在工业领域的应用，将有助于我们提升自身的国际竞争力，加速我国制造业的智能化转型。

下一步行动

要了解更多信息，您可以尝试NV-DINOv2以及如Cosmos Reason等先进的英伟达VLMs。如有技术问题，请访问相关论坛。关注英伟达工业和计算工程总经理Tim Costa在2025年SEMICON West的最新主题演讲（该展会将持续到12月19日），并参加展会期间的各项专题会议。您还可以订阅英伟达AI的行业通讯，并在LinkedIn、Instagram、X和Facebook上关注英伟达AI的官方账号，探索YouTube频道，并加入NVIDIA开发者视觉AI论坛，持续获取行业前沿资讯。

新媒网（公号: 新媒网跨境发布），是一个专业的跨境电商、游戏、支付、贸易和广告社区平台，为百万跨境人传递最新的海外淘金精准资讯情报。

本文来源：新媒网 https://nmedialink.com/posts/nvidia-ai-99pc-prod-boost-build-time-halved.html