DaoCloud 道客,云原生领域的创新领导者,致力于打造开放的云操作系统为实体经济赋能,推动传统企业完成数字化转型。
HAMi 的“甜”源于开源社区这片肥沃的土壤,以及像「DaoCloud 道客」这样的众多开发者的辛勤耕耘,正是这些努力汇聚成了它的“蜜”。
2024 年 12 月 11 日,太平洋标准时间下午 3:16 至 7:38,所有 OpenAI 服务都经历了严重的停机。
许多企业在处理复杂的计算任务时,不惜重金购买高性能 GPU,但这些昂贵的硬件资源往往难以在用户之间实现高效共享。本文探讨了采用弹性配额策略,来解决静态分配 GPU 资源所引发的问题。与传统的固定配额方式不同,弹性配额允许任务在需要时使用超出其配额的 GPU 资源,从而有效减少资源的闲置。
在自然界,我们经常看到大型野生动物被小小的苍蝇所困扰,不得不花费大量时间驱赶它们。类似地,复杂的项目也经常被简单的问题所阻碍。随着深度学习在企业中的快速发展,我们发现,这些项目的管理者、开发者和运维者们经常面临一个核心问题—— GPU 资源调度——即无法有效管理其 GPU 资源。企业虽然投资了昂贵的 GPU 来执行复杂的计算任务,但在用户之间实现这些资源的有效共享却成了一个挑战。
本文主要分享一个开源的 GPU 虚拟化方案:HAMi,包括如何安装、配置以及使用。 相比于 TimeSlicing 方案,HAMi 除了 GPU 共享之外还可以实现 GPU core、memory 的限制,保证共享同一 GPU 的各个 Pod 都能拿到足够的资源。
深度学习是一种人工智能技术,它通过模拟人脑的神经网络结构,使计算机能够从数据中学习复杂的模式和特征。这种技术在图像识别、语音识别、自然语言处理等领域有着广泛的应用。通过深度学习,机器能够识别和预测数据中的模式,从而在各种任务中做出智能决策。本文将探讨如何利用 GPU 资源池化技术,针对计算需求较低的深度学习推理任务,有效降低深度学习成本。
所有云驱动集成组件已被成功地从核心 Kubernetes 仓库迁移到外部插件中。
在 2024 年 KubeCon EU 大会上,Gateway API、多集群管理、服务网络以及网络安全成为了网络技术的焦点。本文将为您详细介绍这些热门主题。
笔者整理了这次 KubeCon 中多云、多集群的相关议题,并尝试从经验入手整理一些多云、多集群的学习理解。
今年 3 月, ClearML 、FuriosaAI 和人工智能基础设施联盟(AIIA)联合进行了一项全球范围的人工智能产业调查。 基于对北美、欧洲和亚太地区 1000 家不同规模企业的 AI/ML 技术领导者的采访,他们发布了《2024 年 AI 基础设施规模现状:揭示未来前景、关键见解和商业基准》。
本文将重点介绍几种方案来实现 GitOps 中资源的加密功能,同时还会介绍一下他们是如何与 ArgoCD 等 GitOps engine 协作的。
2024 年 3 月 19 日,KubeCon + CloudNativeCon Europe 2024 的同场活动 ArgoCon 在法国巴黎举行,旨在促进 Argo 项目的协作、讨论和知识共享。本文将对 ArgoCon Europe 2024 进行专题分享。