立即联系我们
提交成功!
你所提交的信息已经成功提交,会有专业人员在48小时内跟您联系!谢谢。
提交失败!
抱歉,提交失败,请重新校准信息提交,谢谢。
CN EN
产品
解决方案
开发者资源
中文

为数字世界寻找全局最优解

THE FORMULA DIGITAL

DaoCloud 道客,云原生领域的创新领导者,致力于打造开放的云操作系统为实体经济赋能,推动传统企业完成数字化转型。

播放影片
关于我们 动态一览 荣誉资质 联系我们
2024-12-26

异构算力虚拟化 HAMi | 在云原生“沃土”上成长起来的哈密瓜

HAMi 的“甜”源于开源社区这片肥沃的土壤,以及像「DaoCloud 道客」这样的众多开发者的辛勤耕耘,正是这些努力汇聚成了它的“蜜”。

2024-12-17

OpenAI 全球宕机的故障分析和应对方案

2024 年 12 月 11 日,太平洋标准时间下午 3:16 至 7:38,所有 OpenAI 服务都经历了严重的停机。

2024-10-17

通过弹性配额突破静态 GPU 分配限制

许多企业在处理复杂的计算任务时,不惜重金购买高性能 GPU,但这些昂贵的硬件资源往往难以在用户之间实现高效共享。本文探讨了采用弹性配额策略,来解决静态分配 GPU 资源所引发的问题。与传统的固定配额方式不同,弹性配额允许任务在需要时使用超出其配额的 GPU 资源,从而有效减少资源的闲置。

2024-10-15

AI 和 ML 工作负载的 GPU 调度挑战

在自然界,我们经常看到大型野生动物被小小的苍蝇所困扰,不得不花费大量时间驱赶它们。类似地,复杂的项目也经常被简单的问题所阻碍。随着深度学习在企业中的快速发展,我们发现,这些项目的管理者、开发者和运维者们经常面临一个核心问题—— GPU 资源调度——即无法有效管理其 GPU 资源。企业虽然投资了昂贵的 GPU 来执行复杂的计算任务,但在用户之间实现这些资源的有效共享却成了一个挑战。

2024-10-14

开源 vGPU 方案:HAMi,实现细粒度 GPU 切分

本文主要分享一个开源的 GPU 虚拟化方案:HAMi,包括如何安装、配置以及使用。 相比于 TimeSlicing 方案,HAMi 除了 GPU 共享之外还可以实现 GPU core、memory 的限制,保证共享同一 GPU 的各个 Pod 都能拿到足够的资源。

2024-07-04

如何实现深度学习推理成本超 50% 的降低?

深度学习是一种人工智能技术,它通过模拟人脑的神经网络结构,使计算机能够从数据中学习复杂的模式和特征。这种技术在图像识别、语音识别、自然语言处理等领域有着广泛的应用。通过深度学习,机器能够识别和预测数据中的模式,从而在各种任务中做出智能决策。本文将探讨如何利用 GPU 资源池化技术,针对计算需求较低的深度学习推理任务,有效降低深度学习成本。

2024-05-30

完成 Kubernetes 史上最大规模迁移

所有云驱动集成组件已被成功地从核心 Kubernetes 仓库迁移到外部插件中。

2024-05-28

KubeCon EU 2024 | 一文解读网络技术的焦点创新

在 2024 年 KubeCon EU 大会上,Gateway API、多集群管理、服务网络以及网络安全成为了网络技术的焦点。本文将为您详细介绍这些热门主题。

2024-05-13

当多云多集群遇上 KubeCon EU 2024

笔者整理了这次 KubeCon 中多云、多集群的相关议题,并尝试从经验入手整理一些多云、多集群的学习理解。

2024-05-11

AI 基础设施调查揭示 GPU 挑战

今年 3 月, ClearML 、FuriosaAI 和人工智能基础设施联盟(AIIA)联合进行了一项全球范围的人工智能产业调查。 基于对北美、欧洲和亚太地区 1000 家不同规模企业的 AI/ML 技术领导者的采访,他们发布了《2024 年 AI 基础设施规模现状:揭示未来前景、关键见解和商业基准》。

2024-05-09

应用交付的安全性提升 | 几种 GitOps secrets 加密方案

本文将重点介绍几种方案来实现 GitOps 中资源的加密功能,同时还会介绍一下他们是如何与 ArgoCD 等 GitOps engine 协作的。

2024-05-06

KubeCon EU 2024 | 那些关于 Argo 的议题分享

2024 年 3 月 19 日,KubeCon + CloudNativeCon Europe 2024 的同场活动 ArgoCon 在法国巴黎举行,旨在促进 Argo 项目的协作、讨论和知识共享。本文将对 ArgoCon Europe 2024 进行专题分享。

1/2