英伟达Sirius:跨境分析成本狂降7.2倍!

2025-12-16AI工具

英伟达Sirius:跨境分析成本狂降7.2倍!

当前全球数字经济浪潮奔涌,数据已然成为企业发展的核心驱动力。特别是对于中国跨境行业而言,面对瞬息万变的市场环境、海量的交易信息和复杂的物流链条,高效、精准的数据分析能力,无疑是企业保持竞争力的关键。长久以来,数据处理的效率瓶颈一直困扰着众多从业者。然而,进入2025年,随着人工智能和高性能计算技术的飞速发展,一场围绕数据分析引擎的革新正在悄然进行。一项由国际科技巨头英伟达(NVIDIA)与美国威斯康星大学麦迪逊分校合作的最新成果——Sirius项目,正凭借其卓越的性能表现,为大数据分析领域带来了新的曙光。该项目通过将图形处理器(GPU)的强大并行计算能力引入到流行的DuckDB分析型数据库中,不仅实现了前所未有的处理速度,更在成本效益上树立了新标杆,为未来中国跨境企业的数据基础设施建设提供了重要的参考方向。

Sirius,作为一种创新的GPU原生执行引擎,其核心在于充分利用了英伟达的CUDA-X库,包括cuDF和RAPIDS内存管理器等领先技术。这项技术的一大亮点在于,它能够在不改变DuckDB现有代码库的前提下,实现性能的质的飞跃。换言之,Sirius能够无缝地融入到DuckDB生态系统之中,极大地降低了技术门槛和迁移成本。这种兼容性与高效性的结合,使得Sirius在行业标准ClickBench基准测试中表现出色,其SQL操作在GPU上运行的速度,已远超传统的基于CPU的竞争对手,并在总拥有成本(TCO)方面展现出显著优势。尤其在涉及过滤、投影、聚合以及字符串操作等常见的查询类型上,Sirius均实现了令人瞩目的加速效果。未来,Sirius的研发团队还计划进一步提升GPU内存管理能力,引入GPU原生文件读取器及预取机制,构建面向流水线的执行模型,并最终实现可扩展的多节点、多GPU架构,以支持更高级别的数据分析工作负载。

DuckDB作为一款嵌入式分析型数据库,凭借其简洁、快速和多功能性,在2025年已获得了包括美国DeepSeek、微软(Microsoft)和美国Databricks等众多知名机构的青睐,被广泛应用于各种数据分析场景。随着数据分析工作负载的规模日益增长,其对大规模并行计算的需求也越来越迫切。在此背景下,GPU因其卓越的并行处理能力,自然而然地成为了性能提升的下一站。相比于传统的CPU数据库解决方案,GPU不仅能提供更高的性能和吞吐量,其更优的总拥有成本也使其成为一个极具吸引力的选择。然而,从头开始构建一个基于GPU的数据库系统,技术复杂性和投入巨大,这在一定程度上阻碍了GPU加速技术的普及。正是在这样的行业背景下,英伟达与美国威斯康星大学麦迪逊分校联合开发的Sirius引擎应运而生。Sirius被设计为DuckDB的可组合GPU原生执行后端,它巧妙地复用了DuckDB成熟的子系统,同时利用GPU显著加速查询执行。通过深度集成英伟达CUDA-X库,Sirius为DuckDB带来了革命性的GPU加速能力。
Diagram of the Sirius GPU-native SQL engine architecture, showing multiple query engines feeding a shared Substrait query plan executed on NVIDIA GPU libraries, with connections to local and cloud storage.

Sirius的核心优势在于其GPU原生SQL引擎的设计理念,它不仅能为DuckDB提供即插即用的加速能力,未来还有望支持其他数据系统。研发团队在2025年最新发布的一篇研究文章中详细阐述了Sirius的架构,并在SF100规模的TPC-H基准测试中展现了先进的性能表现。Sirius以DuckDB扩展的形式实现,这意味着它无需对DuckDB的代码库进行任何修改,用户只需进行极少的界面调整即可使用。在执行层面,Sirius接收来自DuckDB的通用Substrait格式查询计划,这确保了其与各种数据系统的兼容性。

为了最大程度地减少工程投入并提升系统可靠性,Sirius的构建基于英伟达两项久经验证的成熟技术库:

  1. 英伟达cuDF:这是一个高性能、面向列的关联操作符库,如连接(joins)、聚合(aggregations)和投影(projections)等,专门为GPU环境设计,能够充分发挥GPU的计算潜力。
  2. 英伟达RAPIDS内存管理器(RMM):这是一款高效的GPU内存分配器,能够有效减少内存碎片和分配开销,确保GPU资源得到最佳利用。

Sirius正是基于这两大高性能库,构建了其GPU原生执行引擎和缓冲区管理机制。同时,它还复用了DuckDB的诸多高级子系统,包括查询解析器、优化器以及在适当场景下的扫描操作符。这种成熟生态系统的有机结合,让Sirius在开发伊始便拥有了强大的基础,得以在极小的工程投入下,迅速在ClickBench基准测试中打破了性能记录。
Diagram of a Sirius query where DuckDB scans a table, converts data to Apache Arrow, and NVIDIA cuDF executes aggregates and projections on the GPU.

如上图所示,Sirius处理查询的流程始于接收DuckDB内部格式已优化好的查询计划,这确保了逻辑和物理优化得以保留。在进行表扫描时,Sirius会调用DuckDB的扫描功能,该功能具备一系列高效特性,如最小值-最大值过滤、区域跳过以及即时解压缩,这些操作能够高效地将相关数据加载到主机内存中。随后,表扫描的结果会从DuckDB的原生格式转换成Sirius的数据格式(与Apache Arrow高度兼容),然后传输到GPU内存。在ClickBench等基准测试中,Sirius能够将频繁访问的表缓存在GPU上,从而显著加速重复查询的执行。Sirius的数据格式可以直接映射到cuDF::table,实现零拷贝互操作性,使得所有后续的SQL操作(包括聚合、投影和连接)都能通过cuDF的原语以GPU的速度执行。计算完成后,结果数据会传回CPU,转换成DuckDB预期的输出格式,并最终返回给用户。这一整套流程不仅提供了极致的原始速度,也为用户带来了无缝且熟悉的分析体验。

Sirius在ClickBench基准测试中独占鳌头

在2025年进行评估时,Sirius在Lambda Labs提供的英伟达GH200 Grace Hopper超级芯片实例上运行(成本为每小时1.5美元),并与ClickBench排名前五的系统进行了对比测试。参与对比的其他系统均运行在纯CPU实例上,包括美国亚马逊云科技(AWS)c6a.metal(每小时7.3美元)、美国亚马逊云科技c8g.metal-48xl(每小时7.6美元)和美国亚马逊云科技c7a.metal-48xl(每小时9.8美元)。根据ClickBench的测试方法,评估报告了热运行执行时间和相对运行时长,其中较低的值表示更好的性能,1.0代表最佳得分。下图展示了几何平均相对运行时长在所有基准查询中的表现。

系统 硬件配置 每小时成本 几何平均相对运行时长 成本效益倍数(相对于Sirius)
Sirius Lambda-GH200 1.5美元 0.28 1x
Umbra AWS c8g.metal-48xl 7.6美元 0.50 -
DuckDB AWS c8g.metal-48xl 7.6美元 0.90 -
Salesforce AWS c7a.metal-48xl 9.8美元 0.85 -
... ... ... ... ...

在这些ClickBench测试中,Sirius在成本更低的硬件上实现了最低的相对运行时长,相较于本次测试中的CPU方案,其成本效益至少提升了7.2倍。这充分证明了GPU加速技术在提升性能的同时,也能大幅优化数据分析的运营成本,这对于中国跨境企业在控制成本方面具有重要的借鉴意义。
Bar chart of ClickBench overall performance and cost, showing Sirius (lambda-GH200) as the fastest and lowest-cost system compared with Umbra, DuckDB, and Salesforce Hyper.

上图详细展示了Sirius与ClickBench排名前二的系统Umbra和DuckDB的热运行查询性能对比。Sirius在绝大多数查询中都实现了最低的相对运行时长,这得益于cuDF所驱动的高效GPU计算。例如,在查询q4、q5和q18中,Sirius在过滤、投影和聚合等常用操作上展现出显著的性能提升。然而,也有少数查询揭示了Sirius未来仍有改进空间。例如,q23查询的瓶颈在于字符串列上的“包含”(contains)操作;q24和q26受限于Top-N操作符的性能;而q27则受制于对巨大输入数据进行聚合的效率。Sirius的未来版本将持续优化这些操作符,以实现更全面的卓越性能。
Grouped bar chart of ClickBench relative runtimes per query, comparing Umbra, DuckDB, and Sirius, with Sirius generally showing the lowest runtime across most queries.

进一步深入分析,上图聚焦于ClickBench中最复杂的查询之一——正则表达式查询(q28)。如果简单地在GPU上实现正则表达式匹配,可能会产生大量的内核(kernels),导致高寄存器压力和复杂的控制流,进而严重影响性能。为解决这一难题,Sirius巧妙地利用了cuDF的即时编译(JIT)字符串转换框架,支持用户自定义函数。上图对比了JIT方法与cuDF预编译API(cudf::strings::replace_with_backrefs)的性能,结果显示JIT转换实现了高达13倍的加速。JIT转换后的内核实现了85%的warp占用率,远高于预编译版本的32%,这表明GPU资源得到了更有效的利用。通过将正则表达式分解为字符比较、子字符串操作等标准字符串操作,cuDF的JIT框架能够将这些操作融合成一个单一的内核,从而改善数据局部性并降低寄存器压力,显著提升了复杂字符串处理的效率。
Horizontal bar chart of ClickBench Q28 execution time showing Sirius with JIT-compiled transform running much faster than precompiled Sirius, DuckDB, and Umbra.

Sirius的未来展望与对行业的影响

展望未来,英伟达与美国威斯康星大学麦迪逊分校正紧密合作,致力于为GPU数据处理构建基础性、可共享的模块。这项工作遵循模块化、可互操作、可组合、可扩展(MICE)的原则,正如在Composable Codex中所述。当前,他们的重点发展领域包括:

  1. 高级GPU内存管理:开发稳健的策略,以高效管理GPU内存,包括实现数据溢出物理GPU限制时的无缝处理机制,以维持性能并实现规模扩展。
  2. GPU文件读取器和智能I/O预取:接入GPU原生的文件读取器,并结合智能预取技术,以加速数据加载,最大程度地减少停顿,并缓解I/O瓶颈。
  3. 面向流水线的执行模型:将Sirius的核心架构演进为完全可组合的流水线架构,以优化跨GPU、主机和磁盘的数据流,高效地重叠计算与通信,并支持与开放标准的即插即用互操作性。
  4. 可扩展的多节点、多GPU架构:扩展Sirius的能力,使其能够高效地扩展到多个节点和多个GPU,从而解锁PB级数据处理的能力。

通过在这些符合MICE原则的组件上进行投入,Sirius项目旨在让GPU分析引擎的构建、集成和扩展变得更加简便,这不仅对Sirius自身意义重大,也将惠及整个开源分析生态系统。

Sirius项目采取了开放源代码的策略,遵循宽松的Apache-2.0许可协议。该项目由英伟达和美国威斯康星大学麦迪逊分校共同主导,欢迎所有致力于推动GPU在数据分析领域发展的研究人员和实践者积极贡献力量。

对于中国的跨境行业从业者而言,Sirius项目的进展无疑指明了未来数据分析技术演进的一个重要方向。在全球化数字经济背景下,数据处理的速度和效率直接影响着企业的决策质量和市场响应能力。GPU加速技术,尤其像Sirius这样将现有成熟数据库与高性能计算深度融合的方案,展现出在降低成本、提升性能方面的巨大潜力。建议国内相关从业人员密切关注此类技术动态,探索将GPU加速应用于自身的业务场景,如跨境电商的交易数据分析、物流路径优化、用户行为预测等,以期在日益激烈的国际市场竞争中,通过技术创新构筑自身的数据优势,实现可持续发展。


新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。

本文来源:新媒网 https://nmedialink.com/posts/nvidia-sirius-cross-border-cost-down-72x.html

评论(0)
暂无评论,快来抢沙发~
NVIDIA与威斯康星大学合作的Sirius项目,通过GPU加速DuckDB,提升大数据分析性能,降低成本。该技术对中国跨境企业的数据基础设施建设具有参考价值,可应用于交易分析、物流优化等方面。
发布于 2025-12-16
查看人数 117
人民币汇率走势
CNY
亚马逊热销榜
共 0 SKU 上次更新 NaN:NaN:NaN
类目: 切换分类
暂无数据
暂无数据
关注我们
NMedia
新媒网跨境发布
本站原创内容版权归作者及NMedia共同所有,未经许可,禁止以任何形式转载。