GPU加持!跨境数据分析提速12倍,抢占2025先机!

2025-10-06AI工具

Image

在当今全球互联的商业环境中,中国跨境行业正经历着前所未有的发展机遇。无论是跨境电商平台的海量交易数据、国际物流的实时追踪信息,还是全球用户行为的深度分析,都对数据处理和分析能力提出了严峻挑战。面对日益增长的数据量和对洞察速度的更高要求,传统基于CPU的数据分析系统有时难以满足瞬息万变的市场需求。

为了有效应对这些挑战,行业内正在积极探索创新的解决方案。其中,利用图形处理器(GPU)加速数据处理,已被证明能大幅提升性能,并在成本效益方面展现出显著优势。GPU凭借其强大的并行计算能力和高内存带宽,特别适合处理计算密集型任务,例如多重联结、复杂聚合、字符串处理等。随着2025年GPU节点普及率的提升,以及GPU算法覆盖范围的日益广泛,GPU数据处理正变得更加触手可及。通过解决性能瓶颈,数据分析师和业务分析师得以更快地查询庞大数据集,从而生成实时洞察,深入探索更多分析场景。

正是在这一背景下,科技企业正积极合作,致力于将GPU的强大能力融入主流数据处理平台。例如,IBM与英伟达(NVIDIA)正携手推进NVIDIA cuDF与Velox执行引擎的深度整合,旨在为Presto和Apache Spark等广泛使用的平台,提供原生的GPU查询执行能力。这是一个开放的项目,汇聚了行业内的智慧与力量。
Flow chart illustrating the architecture of a data processing system involving Velox and cuDF, which is integrated with other tools like Spark and Presto.

图1. 查询从Presto或Apache Spark流入Velox引擎,在此被转换为由cuDF支持的可执行GPU流水线

Velox与cuDF的协作机制:构建数据处理新范式

Velox在此架构中扮演着关键的中间层角色。它负责将来自Presto和Spark等系统的高级查询计划,转化为由cuDF驱动的可执行GPU流水线。通过这种方式,Velox有效地充当了CPU指令与GPU强大计算能力之间的“翻译官”,使得复杂的查询任务能够充分利用GPU的并行处理优势。

当前,业内正密切关注Presto和Spark在Velox GPU后端下的初步性能表现。这包括了端到端的Presto加速、Presto扩展以支持多GPU执行,以及Apache Spark中混合CPU-GPU执行的演示。这些进展,无疑为中国跨境行业的数据处理带来了新的思路和机遇。

Presto的GPU端到端加速:数据处理迈向新速度

查询处理的第一步是将输入的SQL命令转换为查询计划,其中包含集群中每个节点待执行的任务。在每个工作节点上,Velox的cuDF后端接收来自Presto协调器的计划,使用GPU操作符重写计划,然后执行该计划。

为了在Velox中通过cuDF运行Presto计划,研究团队对TableScan、HashJoin、HashAggregation、FilterProject等GPU操作符进行了多项改进。

  • TableScan(表扫描):Velox的TableScan在CPU端得到了扩展,以兼容cuDF中的GPU I/O、解压缩和解码组件。这意味着数据可以更高效地从存储加载到GPU进行处理。
  • HashJoin(哈希连接):可用的连接类型被扩展,包括左连接、右连接和内连接,并支持过滤器和空值语义。这增强了GPU处理复杂数据连接的能力。
  • HashAggregations(哈希聚合):引入了流式接口,用于管理部分和最终聚合。这对于在GPU上高效执行大规模数据聚合操作至关重要。

通过这些优化,Velox中cuDF后端的操作符扩展实现了Presto的端到端GPU执行,充分利用了Presto SQL解析器、优化器和协调器的能力。

研究团队利用Presto tpch(源自TPC-H)基准测试,并使用Parquet数据源,对Presto C++和Presto-on-GPU两种工作节点类型收集了查询运行时数据。值得注意的是,Presto C++在标准配置下未能完成Q21查询,因此以下数据突出显示了21个成功查询的总运行时间。

下表展示了在规模因子1,000时,不同配置下21个查询的运行时长:

配置 运行时长(秒)
Presto C++ on AMD 5965X 1246
Presto on NVIDIA RTX PRO 6000 Blackwell Workstation 133.8
Presto on NVIDIA GH200 Grace Hopper Superchip 99.9

注:若使用CUDA托管内存完成Q21(仅GH200),Presto GPU在完整查询集上的运行时间为148.9秒。
Bar chart with an X-axis showing categories for Presto C++ on CPU and Presto on NVIDIA GPU results and Y-axis showing runtime in seconds.

图2. 在规模因子1,000下,单节点Presto C++(CPU)和Presto(NVIDIA GPU)执行Presto tpch定义的22个查询中的21个的运行时长

从这些数据可以看出,GPU加速的Presto在查询性能上实现了显著提升,尤其是在处理大规模数据分析任务时,其效率远超传统CPU解决方案。这对于跨境行业的海量交易数据分析、用户行为模式识别等场景,具有重要的参考价值。

多GPU Presto:提升数据交换效率,缩短查询时长

在分布式查询执行中,数据交换(Exchange)是一个关键操作符,它控制着同一节点内以及不同节点间工作器之间的数据移动。GPU加速的Presto采用了基于UCX的Exchange操作符,支持在GPU上运行整个执行流水线。UCX核心技术利用高带宽的NVLink进行节点内连接,以及RoCE或InfiniBand进行节点间连接。UCX(Unified Communication – X Framework)是一个开源通信库,旨在为高性能计算(HPC)应用程序实现最高性能。

Velox支持多种Exchange类型以适应不同类型的数据移动:分区式(Partitioned)、合并式(Merge)和广播式(Broadcast)。分区式Exchange使用哈希函数对输入数据进行分区,然后将分区发送给其他工作器进行进一步处理。合并式Exchange从其他工作器接收多个输入分区,然后生成一个单一的、排序后的输出分区。广播式Exchange则在一个工作器中加载数据,然后将数据复制到所有其他工作器。

GPU交换机制与Velox的cuDF后端集成工作正在进行中,相关实现已在Velox主线版本中可用。通过新的基于UCX的交换机制,Presto在GPU上实现了高效的性能,尤其当GPU之间配置了高带宽的节点内连接时,性能提升更为明显。

下表展示了在规模因子1,000下,NVIDIA DGX A100(八个A100 GPU)上运行Presto tpch定义的全部22个查询的运行时长对比:

配置 运行时长(秒)
Presto C++ on AMD 5965X 1246
Presto GPU with baseline HTTP Exchange 600以上
Presto GPU with UCX-based cuDF Exchange (8 GPU) 100以下

注:一个八GPU的NVIDIA DGX A100节点,在使用Exchange操作符中的NVLink时,相比于使用Presto基线HTTP交换机制,实现了超过6倍的加速。
在八个GPU工作器下,Presto可以利用默认的异步内存分配完成所有22个查询,而无需使用托管内存。
Bar chart with an X-axis showing categories for Presto C++ and Presto on GPU results and Y-axis showing runtime in seconds.

图3. 在规模因子1,000下,Presto GPU在NVIDIA DGX A100(八个A100 GPU)上执行Presto tpch基准测试中22个查询的运行时长

多GPU的部署进一步释放了Presto的潜力。对于中国跨境行业而言,这意味着可以处理更大规模的分布式数据集,例如全球范围内的用户访问日志、多语言文本分析、跨国供应链优化等。高速的数据交换能力,能够确保分布式分析任务的协同效率,为跨境业务决策提供更及时、全面的支持。

Apache Spark的混合CPU-GPU执行:灵活性与效率的结合

Presto的集成主要关注端到端的GPU执行,而Apache Spark与Apache Gluten及cuDF的集成,目前则侧重于卸载特定的查询阶段。这种能力允许将工作负载中最计算密集的部分分派给GPU,从而在包含CPU和GPU节点的混合集群中,最大程度地利用GPU资源。

例如,TPC-DS Query 95 SF100的第二阶段是计算密集型任务,可能导致纯CPU集群的性能下降。将此阶段卸载到GPU可实现显著的性能提升。同时,CPU容量仍然保留在集群中,可用于处理其他查询或工作负载。

下表展示了单节点、单GPU配置下,TPC-DS Query 95(规模因子100)的运行时长对比:

配置 运行时长(秒)
第二阶段纯CPU执行(8 vCPU) 40以上
第一阶段CPU + 第二阶段GPU执行 (8 vCPU + 1 NVIDIA T4 GPU) 20以下

注:纯CPU配置使用8个vCPU;第一阶段CPU+GPU配置使用8个vCPU和1个NVIDIA T4 GPU(g4dn.2xlarge实例)。
Bar chart with an X-axis showing categories for Second Stage execution on CPU and GPU. Y-axis shows runtime in seconds.

图4. 在规模因子100下,单节点、单GPU执行Gluten tpcds中定义的查询95的运行时长

即使当TableScan的第一阶段在CPU上执行时,CPU和GPU之间的高效互操作性也使得当第二阶段卸载到GPU时,总运行时间得以加快。这种混合执行模式的优势在于其灵活性:它允许用户根据工作负载的特性,精细化地选择CPU或GPU来处理任务,从而实现资源利用率的最大化和查询性能的最优化。对于中国跨境行业中那些既有常规批处理任务,又有复杂实时分析需求的场景,这种混合模式提供了极佳的解决方案。

对中国跨境行业的启示:把握数据智能新机遇

在2025年及未来,GPU驱动的大规模数据分析技术,对于中国跨境行业的重要性不言而喻。随着全球贸易数字化程度的加深,跨境企业正面临着前所未有的数据挑战与机遇。

首先,市场洞察与趋势预测将更加精准和及时。跨境电商平台可以利用GPU加速分析海量的用户浏览、购买行为、商品偏好等数据,实现实时个性化推荐,提高转化率。同时,对全球市场数据的快速分析,也能帮助企业捕捉新的商机,预测消费趋势,为产品开发和市场拓展提供数据支撑。

其次,供应链与物流优化将达到新的高度。国际物流涉及复杂的路径规划、库存管理和风险预警。GPU加速能够快速处理这些复杂的计算问题,优化运输路线,减少运输成本和时间,并有效应对突发事件。例如,通过对全球物流网络进行实时分析,可以更灵活地调整策略,确保货物顺利送达。

第三,风险控制与合规性管理将更加高效。跨境业务常常面临欺诈、洗钱等风险,以及各国复杂的贸易法规。GPU强大的计算能力可以用于快速识别异常交易模式、进行实时身份验证和反欺诈分析,同时也能高效处理大量数据进行合规性审查,保障企业运营的安全性与合法性。

最后,智能化运营决策将成为常态。无论是跨境支付系统的实时清算、国际营销活动的精准投放,还是全球客户服务的智能应答,都离不开强大数据分析能力的支持。GPU加速技术能够为这些智能化应用提供底层算力支撑,帮助企业在复杂多变的市场环境中做出更快速、更明智的决策。

拥抱开源,共创未来:中国跨境行业如何参与

驱动共享执行引擎Velox中的GPU加速,为数据处理生态系统中广泛的下游系统带来了性能提升,包括Presto、Spark(通过Gluten)以及其他系统。这种方法减少了重复工作,简化了维护,并在开放数据堆栈中引入了新的创新。

这些由IBM和英伟达等企业贡献的开源工作,为整个行业带来了宝贵的经验和工具。对于中国的跨境行业从业者而言,积极关注并参与到这类前沿技术的发展中来,将具有深远的意义。这不仅能帮助我们更好地理解和应用这些技术,还能通过社区协作,共同推动数据处理能力的进步。

我们鼓励国内相关从业人员关注此类动态,包括:

  • 尝试使用Velox GPU后端进行Presto基准测试,亲身体验其性能优势。
  • 积极贡献新的操作符或测试工作负载,共同完善技术生态。
  • 参与到Velox、cuDF和Presto的相关讨论中,分享经验、解决问题。

您可以查阅以下GitHub仓库,获取更多信息并参与其中:

  • Velox
  • Presto
  • Apache Gluten
  • cuDF

在当下,技术的快速迭代正在重塑各行各业的运作模式。对于中国跨境行业而言,唯有持续关注前沿技术,积极拥抱变革,才能在激烈的全球竞争中保持领先地位,抓住2025年及未来更多发展机遇。

鸣谢:Zoltán Arnold Nagy、Deepak Majeti、Daniel Bauer、Chengcheng Jin、Luis Garcés-Erice、Sean Rooney和Ali LeClerc(来自IBM);Greg Kimball、Karthikeyan Natarajan、Devavret Makkar、Shruti Shivakumar和Todd Mostak(来自英伟达)等众多开发者为这项工作做出了贡献。


新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。

本文来源:新媒网 https://nmedialink.com/posts/gpu-accelerates-cross-border-data-12x-2025.html

评论(0)

暂无评论,快来抢沙发~
2025年,中国跨境行业面临海量数据挑战。IBM与英伟达合作,通过Velox与cuDF整合,加速Presto和Spark等平台的数据处理。GPU加速显著提升查询性能,优化供应链与物流,强化风险控制。开源合作助力中国跨境企业把握数据智能机遇。
发布于 2025-10-06
查看人数 166
人民币汇率走势
CNY
亚马逊热销榜
共 0 SKU 上次更新 NaN:NaN:NaN
类目: 切换分类
暂无数据
暂无数据
关注我们
新媒网跨境发布
本站原创内容版权归作者及NMedia共同所有,未经许可,禁止以任何形式转载。