阿里巴巴是怎么做的？超大规模GPU集群标准化运维能力建设分享

admin 10 月 20, 2023 119 0

随着机器学习和人工智能技术的不断发展，PAI作为阿里巴巴自研的机器学习平台，承载了越来越多的任务和工作负载。

与此同时，GPU集群作为处理高性能计算和深度学习等任务的核心基础设施，正发挥着越来越重要的作用。在这个背景下，为了确保GPU集群的高效、稳定运行，标准化运维能力建设变得尤为重要。

2023年10月26日-27日，第二十一届 GOPS 全球运维大会 2023 · 上海站即将举行。大会上，来自阿里巴巴机器学习SRE团队负责人李冬堃，将带来《超大规模GPU集群标准化运维能力建设》主题演讲。

如何通过平台化手段构建稳定的服务、可观测性和统一的产品运维底座？让我们看看阿里巴巴是如何做的。

超大规模GPU集群标准化运维能力建设

李冬堃

阿里巴巴

机器学习SRE团队负责人

听众收益 .

1、阿里巴巴机器学习PAI运维工作进化史；

2、超大规模智算集群统一运维底座能力介绍；

3、细化到GPU卡维度可观测体系与稳定性体系设计。

议题简介 .

主要介绍阿里云机器学习PAI产品的基础运维工作中遇到的挑战，以及如何通过平台化手段在服务稳定性、可观测以及产品统一运维底座的建设。

演讲提纲 .

1、团队核心工作介绍

2、细化到GPU卡维度的产品可观测体系与稳定性体系建设

3、由内而外统一机器学习产品运维底座

个人简介 .

目前负责阿里云计算平台机器学习SRE团队，团队负责业务涵盖阿里云机器学习PAI以及阿里云PAI灵骏产品的运维和运维平台开发工作。

精彩议题抢先看（持续更新）

联系我们

商务赞助及合作：

周静：130 7118 2180（微信同号）

任怡：132 6958 7068（微信同号）

门票咨询：

李伟：130 2108 2989（微信同号）

渠道合作：

刘欣：158 0111 5386（微信同号）

王子翰：185 4893 3915（微信同号）

议题申报：

刘杰：156 5212 7323（微信同号）

高婉莹：185 1087 3635（微信同号）

现在报名立享 9 折优惠！

点击阅读原文，访问 GOPS 大会官网

阿里巴巴是怎么做的？超大规模GPU集群标准化运维能力建设分享

标签

发表评论

取消回复

近期文章

近期评论

友情链接

归档

分类

标签

相关推荐

发表评论

取消回复

近期文章

近期评论

友情链接

归档

分类