上海头部智算服务公司：十天速成，从智算中心建设到 AI 智能服务-DaoCloud 道客

动态一览 / 新闻中心 / 上海头部智算服务公司：十天速成，从智算中心建设到 AI 智能服务

上海头部智算服务公司：十天速成，从智算中心建设到 AI 智能服务

新闻中心

2024.11.28

图片2.png

《上海市智能算力基础设施高质量发展“算力浦江”智算行动实施方案（2024 - 2025 年）》明确表示：到 2025 年，本市智能算力规模超过 30EFlops。

上海某头部智能算力公司，致力于为上海市核心区域提供智能算力服务，满足全市范围内对低延时、高可靠性算力的需求。该公司专注于加速构建优质的边缘算力网络和 5G + 边缘计算平台，为客户提供低碳高效、泛在互联的边缘算力供给体系和解决方案。随着业务的快速增长和多样化，该公司积极参与到智算中心的整体建设和服务共享中，为上海市的数字化转型和智能化升级贡献力量。

01 智算中心建设难题

面对以 GPU 为核心的智算中心建设和运营工作，该公司遇到了新的挑战：

在智算中心的建设上缺乏经验
在硬件选择、网络架构设计、以及系统集成等方面需要更多的学习和实践，如，计算资源的协同工作、资源的有效利用以及系统的稳定性保障等。
算力资源的复杂性和分散性导致了高效调度和管理的难题

在智算中心中，异构算力资源在处理不同类型的任务时效率不同，需要不同的管理和调度策略，同时算力资源在空间和硬件上的分散性进一步带来了资源调度的难度。此外，资源的分散也意味着需要更复杂的监控和维护工作，以确保资源的可用性和性能。而且智算中心的建设成本高昂，为了实现标准化算力服务的交付、智算中心需要加强资源透明化和成本控制，方便下一步的资源共享，以此缩短投资回报周期。

系统的稳定性和高效运行难以保障

智算中心的日常运维工作包括硬件维护、软件更新、故障排查等，这些工作不仅耗时耗力，而且需要高度的专业技能。此外，随着业务的增长，运维工作的复杂性也在增加，这要求该公司不断提升运维团队的能力和效率。

02 基于 d.run 的一站式智算中心建设及运营

为了有效应对该公司在智算中心建设中遇到的挑战，「DaoCloud 道客」基于 d.run 算力一体化解决方案为其构建了一站式的智能算力中心方案。这一方案不仅涵盖了从算力建设到运营的全流程服务，还帮助他们解决了算力管理、运维效率和资源透明化等问题。具体措施包括：

怎么建——标准化建设方案和网络性能调优

高效建设过程：「DaoCloud 道客」团队与该公司紧密合作，采用标准化的智算中心建设方案，实现了 8 台搭载高端算力加速卡的服务器（单卡算力达到 2P Flops，单台 8 卡）从架构设计到 GPU 部署的快速交付，在 10 天内完成了核心设施的建设和验收工作，大幅缩减了建设周期。

1.1.png

组网方案与调优服务：通过详细的设备兼容性测试和型号校验，特别是 InfiniBand 和 RoCE 网络之间的区别，防止因错误配置影响系统性能；通过合理的资源规划和分配，将高性能网卡分配给计算节点、存储节点或需要大量数据传输的核心业务处理层，而非普通的管理网络，避免资源浪费；提供全面的网络性能调优服务，包括网络拓扑优化、流量控制、RDMA（远程直接内存访问）技术配置等，合理配置网络交换设备、优化路由路径，最大化网络吞吐量，减少延迟，确保在大规模并发计算任务中网络性能不成为瓶颈。

性能验证与交付：在完成算力集群搭建后，对所有节点的 8 轨网络进行了全面的 RDMA 网络性能测试，包括 RDMA write 吞吐量、nccl-test 性能测试；并验证调度、资源池化、切分等功能的性能表现，以确保智能算力的合理分配和高效利用。

1.2.png

怎么管——异构纳管和智能调度

异构算力纳管和池化共享：d.run 平台支持管理 GPU、CPU 等异构算力设备，能够把分散的算力资源整合成统一的资源池，以供调度。它通过细粒度切分，将单个算力卡的资源按不同比例分配给多个任务，大大提升资源利用率。平台还支持根据不同场景灵活配置资源，能够满足多样化的 AI 负载需求。

智能算力调度与管理：d.run 基于云原生的调度引擎提供了强大的算力资源调度能力。得益于 Kubernetes 的调度框架及丰富的插件架构，d.run 支持多种调度策略，能够根据各类 AI 任务的需求，自动分配和调度最合适的 GPU、CPU 等异构算力资源，这种调度机制避免了资源浪费，进一步提升了资源的利用率。同时，该算力调度引擎可以保证系统性的负载均衡，实现不同计算节点之间的均匀分配，以及在网络流量和数据处理方面实现均衡。这不仅优化了整体性能，还增强了系统的稳定性和可靠性。

1.3.jpg

1.4.png

自动化监控与预警：d.run 平台提供了全面的自动化监控和预警功能，帮助该公司实时监测其算力集群的运行状态。通过智能化的监控系统，平台可以及时发现潜在的资源瓶颈或网络故障，并自动触发告警通知并发送到飞书运维支持群，确保运维团队能够在问题发生前采取措施，减少宕机时间，大幅提升系统的稳定性和可靠性。

1.5.png

1.6.png

资源使用透明化与成本控制：通过平台提供的详细的资源使用报告，该公司能清晰地了解不同业务线的算力消耗情况。通过这种透明化的展示，他们能够根据实际使用情况优化资源分配，避免资源超表或浪费问题，从而实现资源的精细化控制。

1.7.png

怎么省心——高效的维护与升级

借助 d.run 的自动化工具，该公司能够轻松管理算力集群的日常维护任务，包括软件升级、补丁管理和系统备份等。简化的集群软件部署流程、图形化的操作界面，自动化的任务处理方式，减少了人工干预的复杂性，使得运维工作更加省心和高效。此外，「DaoCloud 道客」提供全方位的运维和运营服务，能够根据技术发展和客户需求的变化，持续对其算力集群进行升级和优化，确保客户始终拥有最先进的计算能力。

03 广泛赋能终端场景

在终端用户侧，该公司基于 d.run 平台为医疗行业提供了多个应用场景的智能算力支持，帮助医疗研究机构、制药公司和医院等客户实现了从模型训练、推理到蛋白质创建等高效的AI应用。

医疗模型训练：该公司通过该平台为医疗行业的客户提供了强大的 GPU 算力资源，支持复杂的医学影像分析模型（如 CT、MRI 影像）的训练。一方面为客户动态分配资源，以满足大规模数据集下的深度学习模型训练需求。特别是在肿瘤检测、病理分析等领域，AI模型可以显著提升诊断效率和准确率。另一方面，通过 GPU 加速计算，模型训练时间大幅缩短，帮助医疗机构快速迭代模型，提升诊疗水平。

蛋白质创建与药物研发：该公司通过这一平台为制药公司提供了蛋白质结构预测和药物发现的算力支持。蛋白质创建是一个计算密集型过程，涉及复杂的分子建模和模拟。通过使用 GPU 加速，他们的客户能够在更短时间内对蛋白质结构进行建模和预测，加快药物研发的进程。

1.8.png

AI 模型推理：在医疗应用中，模型推理往往需要高精度和低延时。该公司通过平台的智能调度功能，帮助医疗机构在推理阶段调用最适合的算力资源，确保推理过程的快速响应。例如，在医学影像推理场景中，AI 模型可以快速分析实时影像数据，并给出辅助诊断结果，帮助医生更迅速地做出判断。此外，在该项目中，部分算力节点部署在医疗设备附近，这能够进一步降低推理延时，提升病患治疗的时效性。

个性化医疗与基因组分析：基因数据的处理和分析需要大量的计算资源，尤其是在大规模基因组数据的对比、突变分析和个性化治疗方案推荐中，该公司通过 d.run 平台为这些任务提供了高效的算力支持，帮助医疗机构进行大规模基因组数据的快速分析，推动个性化医疗的发展。

1.9.png

04 从建设到运营

通过这一方案的实施，该公司在智算中心的建设与运营方面收获了显著的效益：

快速交付与早期收益：项目建设周期短，仅用了 10 天便完成交付，该项目能够提前投入运营并获得早期的收益回报。
一站式管理，降低运维难度：d.run 提供了从建设到运营的全流程自动化工具，帮助该公司有效降低了运维复杂性，提升了日常管理的效率，运营更加省心。
提升资源利用率与成本控制：通过智能调度和资源透明化展示，该公司能够精确掌控资源使用情况，避免了超表和浪费，实现了高效的成本控制和更高的投资回报率（IRR）。
灵活扩展与长期发展：可扩展架构确保了公司未来业务增长时无需重新建设算力基础设施，能够灵活应对不断增加的算力需求。

该智算服务公司通过「DaoCloud 道客」的 d.run 算力一体化解决方案，成功构建了一个高效、智能、灵活的智算中心，并实现了从建设到运营的全流程管理，不仅解决了算力资源管理和运维的难题，还为医疗研究机构、制药公司和医院等用户提供了高质量的智能服务，显著提升了客户满意度和业务竞争力。

全球银行百强：以云原生技术构建金融服务新生态

王卫中、高立平到上海道客网络科技有限公司交流考察