立即联系我们
提交成功!
你所提交的信息已经成功提交,会有专业人员在48小时内跟您联系!谢谢。
提交失败!
抱歉,提交失败,请重新校准信息提交,谢谢。
CN EN
产品
解决方案
开发者资源
中文

AI 算力时代,如何乘风破浪

行业参会

2023.12.08

技术的萌芽源于教育的灌溉,教育界对于新技术的兴起和研发同样有着深刻的研究和兴趣,在上周四东华大学里,开展着一场名为“AI 改变人类的生活”主题研讨会,「Daocloud 道客」联合创始人兼首席技术官-郭峰,参与活动并分享主题演讲《数字变局,原生之道》,为如何构建更能支撑大模型运行的体系表达了自己的理解。

微信图片_20240729111216.jpg

01

当前困境

当大模型裹挟着 AI 算力、人工智能这些新产物向我们袭来,企业感受到了前所未有的冲击,欣喜之余,感受到的更多的是颠覆。面对如此革命性的创新,企业如何使用、适应、容纳它,而不是被它替代。

郭总分享道,在面对大模型等新兴技术冲击的时候,当下企业主要会面临两大类困境。第一,企业有需求,但是缺少算力及技术支持。大模型每次的调优和训练都需要大量的资金投入,甚至动辄几百万美金,这个成本并不是每家企业都可以负担得起的,即使有这个预算也希望花在刀刃上,这也是很多企业对于大模型止步于了解的原因之一,另外,高性能的 GPU 板卡资源紧缺,对于算力资源的统一调度和管理等技术能力的匮乏,进一步阻碍了大模型的落地。第二,如何保证投喂数据的实时性,千行百业的数据都不相似,企业很多基于数据的决策和想法,其实更需要的是实时数据,现有的大模型可能都是半年前甚至更久之前的数据,知识数据的时效性的优势如何发挥也是让现在很多企业迟迟没有尝试大模型的因素。

微信图片_20240729111220.jpg

02

企业如何落地大模型

大模型训练通常包括四个主要阶段:

1.预训练(Pretraining)
在这个阶段,大量的计算工作会发生,占据了训练计算时间的 99%。预训练过程通常在超级计算机上进行,使用数千个 GPU 处理互联网规模的数据集,并可能持续数月。

2.有监督微调(Supervised Fine-tuning)
在有监督微调阶段,我们会收集少量但高质量的数据集。经过训练后,我们得到一个有监督微调(SFT)模型。这些模型可以作为实际部署最终大模型的助手来发挥作用。

3.奖励建模(Reward Modeling)
进入这个阶段后,我们会利用人类专家或用户提供的反馈信息来训练智能体。这种反馈可以是显式的(如标记正确或错误行为)或隐式的(如观察专家示范行为)。通过将人类反馈作为奖励信号,智能体可以通过强化学习算法进行训练,并逐步改进其策略。

4.强化学习(Reinforcement Learning)
在拥有奖励模型后,我们可以利用用户提供的反馈信息来针对奖励模型进行强化学习,并进行评分,在这个阶段大模型会获得大量提示信息从而更加完善。

就目前市面上基于开源后微调的大模型以及国产的大模型已经有非常多种,且性能不逊色于 OPEN AI, 因此预训练模型的获取并不是很困难,对于企业来说难点在于如何将预训练模型更好地落地。

「DaoCloud 道客」提供两种大模型应用路径思路,一种是大模型微调,让大模型具备专有知识,另一种是 RAG(检索增强生成),向大模型补充专有知识,通过 LLM 模型 + 向量数据库 + Prompt 流程进行落地应用。

RAG(检索增强生成)是一种结合信息检索和文本生成的技术,旨在提高自然语言处理任务的性能。它可以从一个大型知识库中检索与输入相关的信息,并将这些信息作为上下文和问题一起输入给模型进行处理。通过这种方式,RAG 可以帮助模型生成更加准确、相关和丰富的回答。简单说,RAG 就是先检索后生成,让模型“有据可依”。

比如说企业现在有些实时信息,搜索出来后,作为语境内容的一部分,被输入到大模型,大模型就知道上下文了,其实是开始考试的时候,我们把答案已经告诉他了,他要做的就是组装和理解,接下来就是微调,让企业自己的知识叠加到大模型上,进而生成一个适配企业需求的大模型。

微信图片_20240729111225.png

图片来源:网络。

03

实现算力按需调度

郭总说到“从刚刚说的理论到实践,还有非常多的技术点需要攻克”,但是迈出尝试的第一步非常重要。当然,落地大模型需要具备软硬件基础环境。未来的大模型发展趋势应该适应企业的需求,考虑到企业通常拥有大量员工,因此高并发需求是不可忽视的。为了满足这一需求,大模型知识库需要采用分布式框架,以支持横向扩展,能够同时支持几百个并发请求。此外,算力平台也需要进行有效运营,包括对底层算力资源池的管理、算力资源的调度,到上层的模型生产力提升。

以 GPU 资源为例,现在大家都觉得 GPU 贵如黄金,但是现有的使用效率只有 30% 左右,那原因和优化方向有哪些呢?

原因一:因为 GPU 具有高速计算能力,所以它处理任务的过程中,经常处于等待数据或者网络传输的状态,而并不是真的在运算,这一块的资源浪费其实非常可惜,需要通过高级的调度策略和 NV Link 技术实现现有 GPU 间高速内部通信,无需通过主机内存或 CPU 进行数据传输,从而实现传输的最优;其次为了减少 GPU 等待时间,可以从存储的预加载上减少延迟,保障 GPU 高效使用。

原因二:并不是所有的场景都需要使用大型显卡进行推理。通过 GPU 池化和虚拟化,可以按需进行资源调度,从而实现更优的配置,同时也在一定程度上节约成本投入。

原因三:GPU 的使用受限于算法和框架版本的束缚,这将影响算法、GPU 效率的发挥。通过引入云原生技术,实现算法模型和底层硬件的解耦,避免对底层的依赖,能够帮助用户实现 GPU 的自动化运维,最大程度地提高使用效率。

针对上述所说的影响 GPU 效率的问题,「DaoCloud 道客」也提供了适配的解决方案:通过自主开源的 Spiderpool  进行网络 IP 的统一管理、减少等待时间,HwameiStor  进行本地化存储加速数据读取;利用 Kueue 的高级调度策略优化资源分配,再搭配 KWOK  对算力集群的仿真能力提升效率和稳定性,保障上真实业务后可以减少问题的产生。

为了让大家更好地体验和应用大模型,「DaoCloud 道客」为企业用户提供了交钥匙的算力解决方案,推出了软硬一体的 AI 算力平台。该平台提供多种异构 GPU 资源,并搭载了「 DaoCloud Enterprise 5.0 云原生应用云平台」,实现对 GPU 资源的池化、调优、和统一纳管,不管是资源调度还是网络存储都更适配大模型的落地场景。同时,还搭载了 DaoCloud AIGC Knowledge 知识库平台,可以帮助用户基于大模型的强大内容理解和生成能力,快速构建一个开箱即用的企业专有知识库平台,提供高效、准确的知识检索和问答服务,适用于企业知识管理、在线教育和智能客服等多种场景。

「DaoCloud 道客」的 AI 算力平台已成功服务于运营商、高校、地方 AI 集成商等的算力枢纽建设,这些算力枢纽主要为政务云、智慧城市建设、高校科研、企业数字化应用等提供服务,满足正在爆发的 AI 智算需求。并且「DaoCloud 道客」还可以通过直接调度这些算力枢纽的资源向有算力需求的客户提供服务,与枢纽中心共同运营 AI 算力,灵活服务于企业需求。

郭总在演讲的最后,分享到「DaoCloud 道客」从技术迸发的上游世界里,学习新技术,融会贯通后,将技术应用到企业落地实操中,同时反哺支持开源社区的发展,致力于推动整个行业的技术创新,这与学校里教书育人的方法和知识沉淀逻辑有异曲同工之妙。我们希望 AI 大模型的算力时代冲击能够帮助企业在数字化的道路上找到全局最优解,利用 AI 大模型为企业发展加速冲刺。