在大模型时代,AI 的发展依赖着庞大的算力需求。然而,稀缺又昂贵的底层算力资源问题成为制约 AI 发展的瓶颈。如何攻克这一难题成为当下大家关注的重点,除了硬件 GPU 卡的升级之外,提高算力的利用效率,实现算力资源的灵活配置和共享利用,更是企业落地大模型的重要路径。
作为数字化需求强烈的数据密集型行业,金融业已成为率先尝试应用大模型的行业之一。通用大模型从通识阶段走向专识阶段,将面临着哪些挑战?金融业的大模型到底需要什么样的算力支撑?带着这样的疑问,「DaoCloud 道客」组织了面向金融基金行业的云原生实践研讨会。
在开场致辞中,全国销售总经理季靖凯表达到,「DaoCloud 道客」已经深耕云原生行业近 10 年,我们的服务客户从金融行业逐渐扩展到更多不同的行业,并从中不断累积经验。面对当下如火如荼的大模型落地趋势,金融基金行业作为优先发力的领域,有非常多值得探讨和深思的方向,今天「DaoCloud 道客」带来了一些实践案例,也同时邀请了基金行业的从业者从自身实践视角进行经验分享,希望给大家带来一些借鉴。
「DaoCloud 道客」创始人兼首席执行官,云原生计算基金会全球大使-陈齐彦,首先为大家带来了《 AGI 之下的云原生基础设施》主题分享。
陈总表示:最近在全球规模的 KubeCon 活动中,云原生作为 AI 基础设施的地位已经非常凸显,这也让云原生技术的关注度达到了空前的高度。
云原生技术的发展经历了从 1.0 时代(容器技术崛起)、2.0 时代(容器+操作系统全面结合)到现在的 3.0 时代(云原生作为 AI 基础设施的有效支撑)的发展路径。在这一过程中「DaoCloud 道客」一直在其中助推,不论是上游开源产业的技术贡献,还是面向终端企业的落地应用。
我们最近感受到,围绕大模型的应用创新进入了一个特别活跃的阶段。我们有大量的客户在拥抱创新场景时都涉及到大模型应用。当大模型真正应用起来时,我们会发现,解决基础设施和底层算力需求挑战,成为人工智能和云原生技术未来发展的重要方向。
然而很多企业对大模型算力不足的认知局限在了 GPU 卡的性能和采购上,但是算力的发挥并不仅仅只有 GPU 卡,即使是英伟达也不是靠 GPU 的性能作为唯一的核心竞争力。
面对基础设施算力供给的有限性,GPU 卡的不足,相对于其他操作系统技术公司,「DaoCloud 道客」关注的是如何让客户的应用顺利地运行在异构算力的基础设施上,更是着重关注了针对金融行业信创基调下的大模型应用落地场景。
当客户拥有了高计算能力的 GPU 卡时,如何发挥出最佳的性能?就像给 V12 的汽车发动机要搭配 98# 汽油一样,高性能的 GPU 卡应该需要搭配一套敏捷的算力调度架构和相应的存储、网络配套才可以达成大模型基础设施的最优产出。
在我们进行 AI 大模型的应用开发之前,除了刚刚提到的基础设施之外还需要 3 个非常重要的环节,分别是大模型的微调、知识的投喂以及企业知识库的形成。在金融行业中对于数据安全更是额外重视,模型的投喂、微调都需要完全在本地完成,形成自有的知识库。只有利用微调完成后的大模型并基于此开发的应用,才能帮助企业发挥出大模型真正的价值,完成生产力的升级。
Roby 在分享的最后说到:“通用人工智能时代对基础设施的变革都是史诗级的,我们希望通过云原生的技术在中国科技技术被限制的困难时期里,找到一条不落后于全球生产力的出路。”
招商基金的信息技术部副总监刘昌峻,给我们带来了云原生平台建设的实践分享。刘总表示大模型的美好期待还是需要打好基础才能完成的,因此企业云平台的搭建是企业冲击大模型时代的第一步基石。历经了5年多跟「DaoCloud 道客」一起合作的经验,我们感受到了效率的提升,也会持续坚持云原生化。
南方基金的董事龙湘君龙总在研讨会上也与大家分享了 3 年多的企业云原生转型之路。在思考企业数字化转型的过程中,龙总提到云原生可能是数字化转型的必选项,它属于基础设施的数字化转型,同时表示云原生平台工程可能会导致生产关系的变化将应用和平台形成长期协同,共同发展的良性循环。
面对当下金融行业对大模型应用跃跃欲试的现状,「DaoCloud 道客」联合创始人兼首席技术官郭峰,表示企业在真正在落地大模型的时候会遇到很多问题,第一个问题是缺卡,深入沟通后,我们发现企业不是没有卡,而是卡被锁在各个业务系统上,而且卡的利用效率非常低,大部分企业使用率不足 30%;第二就是限制问题,很多国外的模型其实大家是用不了的,更何况还有监管的限制,导致目前很多大模型在金融行业不能使用;第三是场景问题,金融不需要一个 Chat GPT, 需要的是一个基于金融场景结合下的大模型产物。
其实金融企业需要的大模型落地应用是将通用大模型从通识阶段走向专识阶段,那么基于现有的预训练模型是否能快速搭建一个属于自己企业的大模型是当下更受到关注的。
目前有两种方式来实现,一种是称为 RAG 的检索增强生成,它不会改变大模型的架构和参数,而是将问题和相关检索内容一起提供给大模型,让大模型理解问题并生成答案。另一种是微调,不改变模型结构,而是通过增量微调特定参数或层来改进模型。在企业中,大模型 99% 的场景都采用 RAG 方式,因为它不需要大规模的算力,也不需要修改模型,数据也不会离开企业。
虽然看上去 RAG 的流程还是比较简单的,但是落地过程中涉及到复杂的算力调度、向量化等各种问题,针对这个情况,「DaoCloud 道客」今年发布了知识库一体机的产品,提供开箱即用的功能,既拥有 GPU卡,也包含整体适配的算力架构以及横向扩展的需求。
在使用大模型应用的过程中,我们也会需要更好的利用提示词、实时数据来教会大模型输出我们想要的答案。目前我们在已经落地的金融场景中,包含金融合规性问题的回答、尽调报告的输出,IT 工单的填写(大模型+低代码的结合)等。
在之前的几位嘉宾分享中都有提及到信创的场景,异构的算力编排在国内未来发展无可避免,我们「DaoCloud 道客」希望支持不同厂家的 GPU,优化算力调度,目前 GPU 卡的研发方向其实需要通过分布式的架构去弥补单点算力的不足,因此我们做了两件事,第一件事就是完成 GPU 卡的池化和虚拟化,可以更好地支持分布式调度;另一件事,我们做了拓扑感知调度,GPU 的调度需要依赖对拓扑的感知,如果你调度到 1 台机器上的 8 个卡和调度到 8 台机器上的 8 个卡效果完全不一样,因为一台机器上几乎相当于本地调用,但是一旦跨了机器,没有走 NVLINK ,网络性能急剧下降,会严重影响 GPU 的使用效率。
在完成上述优化之后,我们总结了在金融行业落地大模型的一个最佳路径,从企业大模型知识库搭建开始,通过 RAG 的流程,一边进行数据积累,一边不断微调大模型,在知识库完善后也同步获得了适配企业专识的大模型,针对后续其他大模型应用建设中也能快速落地,助力金融企业快速享受大模型的红利。
通过 4 位专家的分享让我们看到了云原生帮助企业升级的历史成果,对基金行业数字化业务创新者的一些启发;也看到了大模型时代下的算力需求可以由云原生底座作为支撑,通过调度、网络、存储多方优化来突破算力瓶颈,面对算力紧缺的冲击;我们「DaoCloud 道客」希望为企业寻找到算力调度的最优解,实现算力的最大化使用,助力企业奔赴智算世界。