一码多芯+全能工具链:鲲鹏携手国产xPU,开发者如何轻松玩转AI推理?

AI时代,模型深度思考商业价值渐显,推理需求正驱动计算架构剧变。

近日,鲲鹏昇腾开发者大会2025(KADC2025)成功举办。在鲲鹏开发者峰会上,华为正式发布了针对异构计算挑战的核心力作——鲲鹏+xPU推理解决方案。作为华为“鲲鹏AI+解决方案”的重要构成,该方案旨在解决开发者在AI应用,特别是推理场景中面临的异构算力协同难、硬件资源利用率不足以及多平台开发维护复杂等痛点,为开发者提供一个高效、灵活且易于使用的AI算力底座,覆盖数据中心到边缘场景。

AI时代,异构算力协同困扰开发者

随着AI技术的飞速发展,算力需求无处不在,AI应用的算力底座架构逐步走向异构融合。华为鲲鹏计算业务总裁李义指出,在AI企业的业务中,AI占比已达70%,尤其在推理环节,CPU与GPU等xPU的协同工作成为主流,以充分释放算力潜能。

一码多芯+全能工具链:鲲鹏携手国产xPU,开发者如何轻松玩转AI推理?_第1张图片

华为鲲鹏计算业务总裁 李义

然而,这种异构趋势给开发者带来了新的挑战:

  • 资源利用与调度复杂:如何高效调度和利用不同架构的CPU和xPU资源,避免“木桶效应”,将算力充分释放,是一大难题。
  • 性能瓶颈:尤其在GPU中,HBM(高带宽内存)虽然关键,但成本高昂且容量有限,可能成为性能瓶颈,特别是在处理长序列推理任务时。
  • 生态适配与工具链:开发者需要简单易用的工具来调用多样化的算力,并确保软件生态的兼容性和完善性。

此外,当开发者需要将应用从原有平台迁移到“鲲鹏CPU+国产xPU”的新组合时,也面临巨大困难。华为鲲鹏计算研发部部长刘林超坦言,许多开发者甚至在适配的第一步就可能卡住,无法调通。在这样的背景下,鲲鹏+xPU推理解决方案应运而生。

鲲鹏+xPU推理解决方案:硬件开放与技术创新

鲲鹏+xPU推理解决方案以鲲鹏处理器和模组为基础,广泛支持包括昇腾、沐曦、天数、寒武纪、昆仑芯、摩尔线程在内的国产xPU生态

硬件开放生态构建是鲲鹏+xPU推理解决方案的一大特色。李义表示,鲲鹏坚持硬件开放,合作伙伴基于鲲鹏主板和模组已推出十多款推理服务器和二十多套工作站,覆盖从1.5B到671B参数规模的模型。

此次大会上,趋境科技依托鲲鹏基础软硬件平台,在Ktransformer架构优化中取得的突破性进展,正式发布鲲鹏+xPU解决方案,与华为共同构建AI先进算力底座。

一码多芯+全能工具链:鲲鹏携手国产xPU,开发者如何轻松玩转AI推理?_第2张图片

算力与内存协同是这一方案的核心技术突破:

  • 算力协同sysHAX:该技术能够感知异构算力的分布情况,通过智能的负载均衡技术,将部分适合CPU处理的任务从xPU卸载到CPU上执行,或者将CPU的能力嵌入以辅助xPU,实现更优的算力协同。在与openEuler的融合创新中,这种算力融合在MoE(Mixture of Experts)模型的推理吞吐率上带来了10%-30%的提升。
  • 内存协同GMEM:针对GPU上HBM昂贵且容量有限的问题,GMEM技术通过鲲鹏CPU的内存资源来协同GPU内存,有效弥补HBM的不足,提升整体内存可用性和带宽利用率。这不仅有助于降低成本,还能更好地支持长序列推理任务。刘林超强调,这套技术的目的是“不挑任何GPU,可以在任何GPU上使用”。

这些技术突破也深度融合了openEuler操作系统。如前所述,算力融合层面,将GPU上的部分工作(如MoE模型中的特定计算)分配给CPU处理,提升推理吞吐率。此外还有内存融合,通过openEuler,实现CPU和xPU内存的统一编址,提升内存使用效率。

一码多芯+全能工具链:鲲鹏携手国产xPU,开发者如何轻松玩转AI推理?_第3张图片

另外,对于开发者关注的开发工具链,鲲鹏+xPU推理解决方案提供了全面的支持:

  • 鲲鹏DevKit:提供从算子开发、调试、系统诊断到算子调优的全套工具。例如,支持一键完成源码的向量化改造,提供高达2000进程的免费可视化调试能力,以及针对多卡性能不均的诊断工具。
  • 鲲鹏BoostKit:提供基础算子层、图编译层(如KAIS插件,兼容MLIR)和主流AI框架对接层的三层加速能力。通过向量化加速,可将数据处理效率提升30%以上。

为开发者带来四大价值

对于开发者来说,鲲鹏+xPU推理解决方案带来四个显著的价值。一是降低异构开发复杂度。通过“一码多芯、同辕开发”的理念及配套工具,开发者可以更轻松地实现一套代码在鲲鹏CPU及多种xPU平台上的运行和优化,大幅降低多平台版本维护和迁移的成本与难度。

二是提升应用性能与效率。sysHAX和GMEM等核心技术,结合BoostKit中的算子加速和图编译优化,能够显著提升AI应用的推理性能和数据处理效率。例如,美团基于鲲鹏DevKit和BoostKit(特别是SVE指令集优化)改造其开发流水线和优化向量检索服务,实验室数据显示检索效率提升26%,向量召回性能提升30%以上。

三是更广泛的硬件选择与优化成本。方案支持众多国产xPU,为开发者提供了更灵活的硬件选择。GMEM等技术有助于缓解对昂贵HBM的过度依赖,实现成本效益更优的部署方案。

四是加速AI应用创新与落地通过提供易用的工具链和优化的软硬件协同能力,开发者可以将更多精力聚焦于AI算法创新和业务逻辑实现,加速AI应用的开发和上线周期。

开发者如何借势鲲鹏+xPU推理

基于鲲鹏+xPU推理解决方案,开发者可以通过多种途径,充分利用它的强大能力。

首先是拥抱鲲鹏硬件平台选择基于鲲鹏处理器和模组的推理服务器或工作站,这些硬件已预先考虑了与多种xPU的协同设计。其次是利用openEuler操作系统openEuler作为开源操作系统,提供了与鲲鹏硬件深度协同的内存融合与算力融合特性,是发挥鲲鹏+xPU能力的基础。

第三,深度使用鲲鹏DevKit与BoostKit AI套件:

  • 代码迁移与适配:当从其他平台迁移代码到鲲鹏+国产xPU时,使用DevKit的迁移工具进行源码扫描和一键式修改,快速完成适配。
  • 性能分析与调优:利用DevKit的诊断工具定位多卡部署时的性能瓶颈(如慢卡问题),通过其调优功能(如系统参数调优、热点函数分析)优化算子性能。一个案例显示,通过DevKit的分析工具自动替换可向量化算子,性能提升了25%以上。
  • 加速库与编译器:集成BoostKit提供的算子库、鲲鹏图编译器KAIS插件以及针对主流推理框架的加速插件,以获得更高的执行效率。

此外还可以积极参与鲲鹏生态与社区。通过“鲲鹏日”、“创享日”、鲲鹏创新大赛等活动和线上线下学习平台,开发者可以获取最新的技术和资源支持。更高层次的需求可以考虑华为“同辕开发”最新激励计划,这一计划承诺在三年内投入30亿资金激励生态发展,支持从技术研发到商业落地的全链条。

结语

我们看到,鲲鹏+xPU推理解决方案的推出,成为鲲鹏在AI时代打造坚实算力底座的关键一步。它不仅解决了当前开发者在异构计算中面临的实际问题,也为国产AI硬件生态的协同发展铺平了道路。正如华为ITC Marketing部长周军所言,华为将持续坚持硬件开放、软件开源,为合作伙伴和开发者提供全方位支持,共筑先进产业生态根基。未来,随着更多国产xPU的涌现和软件栈的持续优化,鲲鹏+xPU解决方案有望为千行百业的AI应用提供更强大、更高效、更易用的动力引擎,释放代码的力量。

你可能感兴趣的:(人工智能)