
在上周刚刚结束的南京 NJSD 十周年技术盛典上,「DaoCloud 道客」创始人兼首席执行官、云原生计算基金会全球大使陈齐彦受邀作为 AI 革新主题分论坛的嘉宾带来了《让算力更自由:简化从算力到 AI 模型应用落地的复杂性》的演讲,分享了他近一年对于人工智能大模型基础设施领域的洞察见解。

很高兴又来到 NJSD,从最早「DaoCloud 道客」在国内推广云原生技术、推动信创分布式架构,我们一直在不断进步。去年,我们在此分享了大模型的基础设施架构。时隔一年,我再次来到这里,带来「DaoCloud 道客」过去一年在 AIGC 领域——我们称之为人工智能大模型基础设施领域——观察到的趋势和变化的最新见解。
今天的分享内容来自于我们年初发布的算力一体化方案 d.run以及它的口号“让算力更自由”。
为什么称之为让算力更自由?是因为我们看到一个很重要的承上启下的关系,从 OpenAI 爆火到国内整个大模型生态的风起云涌,人工智能的发展已经超乎大家的想象,身处上海这个人工智能产业聚集高地的我们有着更深的感触。我们发现企业面临的一个瓶颈是有效算力供给不足,市场上正在寻找能够将算力的力量充分调动起来的方案,这也是「DaoCloud 道客」正式涉足算力领域的契机。
在迈向通用人工智能时代的路上,人们面临的巨大瓶颈是有效算力供给不足。我今天分享的核心正是如何解决这个问题。
其实算力不仅仅是 GPU,很多专业人士在这一点上达成了共识——GPU 要变成真正的算力还有很长的路需要走,其中不仅仅是硬件基础设施,还包括大量的软件技术。
今年上半年,我们在与合作企业的沟通中发现有效算力的瓶颈问题仍然比较严重。随着众多参与者的加入,算力领域吸引了广泛的企业关注,包括许多与 IT 业务不直接相关的公司,它们也纷纷寻求在算力领域的商业机会。从摩尔定律到 Scaling Laws,算力的需求呈现爆发式、膨胀式的增长。通常,大家会认为算力瓶颈问题源自于政治纷争下的芯片禁令,但实际上,除了基础设施供给不足,还有算力建设上的问题。
虽然英伟达有禁售,但国内市场中也有非禁售产品在流通,我们仍然可以利用英伟达芯片作为底层算力硬件。而且,「DaoCloud 道客」作为目前排名全球前三的 Kubernetes 企业发行版厂商之一,能够做到发行版与社区同步同轨,因此可以很好地支持一些 GPU 版本的更新。在这样的情况下,我们发现,国内的安装数其实没有增长很快,反而是国外客户用得越来越多,规模甚至达到了万卡级别。
可以看出,目前国内市场对于算力使用的认知还存在偏差,许多人错误地将硬件安装成功等同于算力使用成功,忽视了软件技术在算力使用中的重要性,导致资源未能有效利用,这本质上只是设备租赁而非真正的有效算力供给。实际上,算力用户的诉求并不是一个机器的 4 张卡、 8 张卡,而是整个算力集群的工作能力交付,这里面包括集群的搭建、组网、算力调度,以及上面配套的生产运行、运维安全保障等。
而且算力产业在 GPU 时期的发展路径与 CPU 时期并不相同。在过去的 CPU 时期,我们享受了由于 ARM 和英特尔长期竞争而形成的成熟产业生态,使得从 x86 到 ARM 的转变相对容易。但是在 GPU 时期,还需要与时间做朋友,现在的算力产业发展需要长期的投入和积累,不能期望通过自主创新就迅速跨越技术发展的时间门槛。尤其是国产 GPU,目前还没有公司能够挑战英伟达的 CUDA 生态,这是现阶段一个难以逾越的障碍。
就我个人的观察来讲,如今国内市场的有效算力建设主要面临两个现实问题。第一个现实问题是,对于如今的有效算力,CUDA 生态是十分重要的,所以如果不能提供基于 CUDA 或者 CUDA 兼容的算力,应用场景的使用、迁移、开发成本都会急剧上升。
第二个现实问题是,英伟达在中国市场禁售的不仅是硬件,还有配套的软件技术堆栈。英伟达实际上是一家软件技术驱动的硬件公司,但是往往大家的关注点都在于硬件买不到,鲜少有人关注到授权软件的风险。现实的情况却是,在没有软件技术优化的情况下,高性能 GPU 卡的使用率都很难超过 30%。
GPU 资源的价格是通用计算价格的 10 倍,面对昂贵的硬件资源,不能充分利用起来无疑就是巨大的浪费。因此,我们对算力利用率的每一次提升都直接转化为价值的增长。
众所周知,英伟达依赖强大的软件生态构建起了一道坚固的护城河。从全球的视角来看,AI 底层基础设施以英伟达为主,但是在英伟达的硬件架构和软件生态中间有一个非常重要的引擎,那就是 Kubernetes,「DaoCloud 道客」正处在这个特殊的位置。它是一项开源技术,可以说是我们突破这个护城河最有利的切入口。目前的 AI 基础设施大都以 Kubernetes 作为调度平台。经过多年的技术实践,人们认识到 Kubernetes 不仅提供基础的调度策略,还通过其强大的编排、容错、自动扩展和调度能力,为大模型的部署和运行提供了一个可扩展且高效的环境。这一平台已然成为了行业标准,英伟达的 AI 模型开发和训推工具也运转在 Kubernetes 之上,这进一步证明了 Kubernetes 在算力调度中的核心地位。在过去的两年中,加入 Kubernetes 生态的公司数量是过去几年的三倍,大量的新功能被合并到 Kubernetes 中,很多功能都是增强在大规模的 AI 基础设施上的工作能力,英伟达也基于这个定位实现了商业上的不断扩张。
「DaoCloud 道客」不仅仅是全球 Kubernetes 代码维护量全球排行前八的公司,同时也是过去五年代码贡献量增速最大的前三名公司,尤其是在 AI 相关的技术创新上贡献了很多核心代码,目前已经成为了亚太唯一一家同时拥有 Kubernetes、Istio 指导委员会席位的公司,自主开源或参与开源的项目也被英伟达和 OpenAI 等人工智能领域的龙头企业广泛应用。这些人工智能领域的头部企业对 Kubernetes 的重视程度是非常高的,英伟达在社区内的贡献量还在快速增长。非常幸运地,我们与英伟达保持着深入的合作,一方面是因为我们主要参与贡献和维护的项目与英伟达非常关注的技术板块不谋而合,另一方面,Kubernetes 技术在整个 AI 基础设施里非常重要,其重要性对标 CUDA 生态,而当下 Kubernetes 技术作为大规模 GPU 算力集群的标准接口已经成为业界的共识,「DaoCloud 道客」作为 Kubernetes 指导委员会成员,是英伟达在该技术领域非常紧密的同行者。
第二,「DaoCloud 道客」作为一家中国科技公司,立足点还是需要放在国内市场面临的算力产业瓶颈上。与全球视角不同,解决异构算力的问题是国内市场的一个主要问题,即针对国产 GPU 的算力纳管 。目前「DaoCloud 道客」在这方面的工作还是颇有成效的,我们希望伴随整个国产算力体系的成熟,扩大兼容国产 GPU 的路径。「DaoCloud 道客」愿意担起软件层的角色为大家提供更多的有效算力,同时也期待着算力产业能够沿着这条路径不断蓬勃发展。
「DaoCloud 道客」不管在 AI 算力平台调度方面,还是在超大规模算力集群的搭建方面,包括软件、硬件乃至数据中心,都相当有经验。这得益于对开源社区的持续贡献,以及在企业市场信息基础架构转型方面积累的十年专业技术经验。
在过去的几年里,「DaoCloud 道客」不断实践,其中捐献的近 10 个开源项目都与 AI infra 架构保持深度契合。这些项目中的技术突破,是我们在特定领域的创新成果。其中,我们最新被 CNCF 基金会纳入 Sandbox 的明星级项目 HAMi,是我们与第四范式的研发团队合作,共同推出的一个完全由中国公司主导的技术项目,它与 AI 计算高度相关,并且在某种程度上具备解决“卡脖子”难题的技术能力。「DaoCloud 道客」和 Google 作为核心贡献者的作业队列调度项目 Kueue 已经为大规模的算力调度优化提供了有效的方向。同时,我们的 KWOK 项目也被 OpenAI 深度使用,英伟达工程师招聘需求也将 KWOK 的使用纳入标准。
作为一家规模不大的公司,「DaoCloud 道客」在开源方面的高投入对于把握新一代 AI 和数据中心的技术创新至关重要。我们坚持在开源社区中保持活跃,伴随着 Kubernetes 一起成长壮大,这使我们能够牢牢抓住 AI 时代的发展机遇。展望未来,「DaoCloud 道客」也会继续保持在开源社区里的高投入。
当然,这些技术上的单点突破,都只是局部的胜利。为了实现 AI 全栈技术的无缝衔接和完善,「DaoCloud 道客」致力于通过专业技术,帮助客户构建一个如同“超豪华七星级酒店”般的算力中心,旨在提供全面、高效且稳定的服务。我们的目标是通过整合这些单点的技术优势,为客户提供强大且完善的算力供应,并基于此推动 AI 技术的全面发展。
那这个七星级酒店应该怎么盖?「DaoCloud 道客」基于实践经验和创新思路打造了一套基于 Kubernetes 的算力一体化方案——d.run。在这个方案中,「DaoCloud 道客」利用 DaoCloud Enterprise AI 支持更丰富的算力调度能力,对下纳管异构算力,对上支持 AI 智能应用, 给企业一种拎包入住的体验感。
DaoCloud Enterprise AI 来自于「DaoCloud 道客」的核心产品 DaoCloud Enterprise 5.0,但是进行了大量的关于 AI 的能力增强,包括算力资源的优化、 GPU 的共享和加速、异构网络的管理(包括 IB 和 RoCE )、 GPU 的调度(尤其是更符合 GPU 和大模型训练和推理场景的调度策略)以及租户的管理。
在中国搞 AI,我们不是富二代创业。国内市场基础设施供应的挑战短时间无法解决,从软件技术上去寻方法、找突破,来提升有限资源的利用率不失为一个良策。「DaoCloud 道客」目前主要专注于软件技术,并且正在与国产 GPU 公司合作,希望能够通过软件技术有效地复刻在英伟达集群上实现的性能提升,使得国产算力集群的资源利用率和成本优势得到显著提升。「DaoCloud 道客」排除万难在技术的险隘关口占有一席之地,势必也会继续保持研发的创新性,在这个位置站稳站好,长期坚守。
我们之前讨论的技术创新都是围绕云原生技术展开的,旨在优化算力的调度和使用,这是「DaoCloud 道客」多年实践所提炼出的核心方法论。我们致力于沿着这一正确的发展路径,为中国市场供应高效、可靠的算力,并构建起体系化的算力中心和枢纽。届时,我们将通过统一的、标准化的接口,将大型算力中心中冗余但高性能的算力资源有效整合,并面向小微企业及开发者市场进行流动,以此形成更加健康的市场循环。算力也将因此变得更普惠、更便宜、更自由,这将对推动通用人工智能时代迎来一个更好的未来大有裨益。
此外,「DaoCloud 道客」还在这条路径上摸索出了更创新的模式——金融服务与算力建设并行。「DaoCloud 道客」基于自身在金融行业的经验,在技术创新和落地的同时,充分发挥金融杠杆的作用,帮助加速超大规模算力基础设施的建设,为算力产业的发展造血输血活血。
在未来,「DaoCloud 道客」希望能看到更多高质量的算力中心拔地而起,并在 d.run 平台上被点亮,为更多 AI 应用带来助力。同时也希望「DaoCloud 道客」所做的这些努力,能够让中国企业的点点星光在全球人工智能基础设施行业中持续闪耀。
沪公网安备31011002001590| 上海市杨浦区江湾城路 99 号 6 号楼 7F