
大模型的出现,使得整个社会的系统建设和数据中心的设计都开始变得不同。
2023 年 12 月 3 日,上海市高等教育学会计算机专业委员会年会在华东理工大学徐汇校区圆满举行,「DaoCloud 道客」作为本次活动的协办单位,受邀参与会议研讨环节,「DaoCloud 道客」联合创始人兼首席技术官郭峰为与会嘉宾带来《云原生与大模型》的精彩分享。

在会议现场,来自上海市高等教育学会以及上海交通大学、复旦大学、华东理工大学等高校的嘉宾从教育体系的视角分析了如今人工智能发展的现状并分析了高校对于算力资源的需求。一方面加强人工智能人才的引进和培养,补足技术领域的人才缺口,另一方面拉动高校内的 AI 算力建设,促进产学研的高度合作模式,加强高校与企业之间的联系。

郭峰则带来了企业视角的一些思考。企业在实际落地大模型过程中,面临着一些挑战。第一是典型的算力供给问题,和自然资源一样,算力资源同样也是稀缺的,算力市场上也存在着供需不平衡的现象。但是动辄千亿、多则万亿的大模型参数量、训练数据量需要通过更大规模的算力来实现。第二,无论是大模型的推理、训练还是使用,都是需要实现分布式协同的,这就需要对底层的算力资源也实现分布式的调度,但是绝大部分企业可能并不具备这个能力。算力的需求激增,但是市场和技术上的瓶颈却牵制着算力的进一步突破,众多企业迫切地寻找着这个答案。
随着人工智能技术的快速发展,云原生与智能算力的协同成为相关行业的重要议题。郭峰在会上介绍了「DaoCloud 道客」在长期的业务实践中总结出来的云原生突破算力瓶颈的“五步曲”,分别是算力调度、管理、网络、存储和运营。
在大模型领域,GPU 算力是最核心的资源,但是在企业的实际应用中,GPU 的利用率往往不会超过 30%,有大量的 GPU 资源浪费在无效调度和跨机器访问上。而且,在芯片受限的情况下,如何利用有限的算力资源发挥出更大的效用,众多企业开始思考算力调度的方案。在这个方面,除了大家耳熟能详的分布式 AI 框架 Ray 之外,郭峰提到了目前最常见的原生作业队列系统 Kueue,这是云原生领域关于算力调度的一个更高级的技术策略,「DaoCloud 道客」也是这个项目的深度参与者。此外,在算力调度上还有一个很重要很火热的开源项目——「DaoCloud 道客」自主开源的 KWOK,它能够在没有基础设施的条件下就能完成大规模测试,缓解 AI 底层的算力压力,解放出更多的算力资源用在关键位置,保证算力调度的稳定性和可靠性,已经在 OpenAI 中得到了广泛应用。
在当前的算力瓶颈下,多元算力成为了常态化的部署方式,对于算力资源的管理也变得至关重要。首先是针对异构的算力资源,企业需要实现算力资源池化和各种版本的隔离,将一个个数据孤岛统一管理起来。其次,国产 GPU 发展是一种必要的趋势,在构建算力底座的同时需要考虑对于国产 GPU 的支持能力。
需要注意的是,单卡算力一定是有限的,因此在企业实际落地的场景中,多卡协同是必要的,其中,网络也是十分重要的一环。对此,「DaoCloud 道客」提出了 Spiderpool 这个开源的解决方案,将多卡之间的网络通信更好地协调起来,进一步提高算力的效率。在上个月刚刚结束的 KubeCon 北美中,来自「DaoCloud 道客」的两位讲师也向全世界的开发者介绍了这个方案,和今年的 AI 话题浪潮一起成为了云原生推动算力发展的关键技术实践,受到了参会者的广泛关注。
至于存储方面,另一个「DaoCloud 道客」自主开源的项目——HwameiStor 则提供了存储加速的能力,针对训练阶段需要重复访问的数据,HwameiStor 可以在一次远程访问之后实现本地化的处理,这样可以极大地提升数据访问的效率,解放出更多的算力资源,方便应对更高并发和更大规模的复杂数据挑战。
最后,算力的大规模应用绕不开运营这个话题。算力资源的量级远远超出了人们的想象,落实到最终的业务上还会产生更大的时间成本及人力成本。郭峰提到,通过在云原生平台中实现最集约化的算力管理和高效的调度运营,可以实现算力服务的快速交付,再配合上云原生可观测的能力,以此保证整个算力服务的稳定高效,为上层 AI 应用的运转提供一个坚实的数字底座。
得益于开源,「DaoCloud 道客」找到了 AI 智算世界的最优解。而为了应对企业落地的问题,在开源的方案之上,「DaoCloud 道客」还推出了开箱即用、软硬一体的算力产品方案,提供不同类型、架构的算力资源,再通过 DaoCloud Enterprise 5.0 云原生操作系统的能力实现统一调度与运营,使得算力效用更大化并降低算力开销。「DaoCloud 道客」在这个基础之上,还搭载了 DaoCloud AIGC Knowledge 知识库平台,为企业用户提供了交钥匙的算力解决方案,覆盖了底层资源到上层应用,在解决算力问题的同时也实现了能力的跨越。
目前,「DaoCloud 道客」的方案已经开始为算力枢纽建设服务,基于更强大的算力储备,为政务云、智慧城市建设、高校科研、企业数字化应用等提供算力调度服务,弥补大模型热潮下的 AI 算力缺口。与此同时,「DaoCloud 道客」深度参与到算力运营的过程,通过直接调度这些算力枢纽的资源向更多有算力需求的客户提供服务,降低其算力布局门槛。
2023,是生成式 AI 的突破之年。大语言模型开始走入千行百业,承担起产业结构升级的重任,正在引发新一轮的效率革命。于开源中获取养料,于商业中落地实践,算力需求当前,「DaoCloud 道客」从未停止自己的脚步。
沪公网安备31011002001590| 上海市杨浦区江湾城路 99 号 6 号楼 7F