阿里巴巴是怎么做的?超大规模GPU集群标准化运维能力建设分享

随着机器学习和人工智能技术的不断发展,PAI作为阿里巴巴自研的机器学习平台,承载了越来越多的任务和工作负载。


与此同时,GPU集群作为处理高性能计算和深度学习等任务的核心基础设施,正发挥着越来越重要的作用。在这个背景下,为了确保GPU集群的高效、稳定运行,标准化运维能力建设变得尤为重要。


2023年10月26日-27日,第二十一届 GOPS 全球运维大会 2023 · 上海站即将举行。大会上,来自阿里巴巴机器学习SRE团队负责人李冬堃,将带来《超大规模GPU集群标准化运维能力建设》主题演讲。


如何通过平台化手段构建稳定的服务、可观测性和统一的产品运维底座?让我们看看阿里巴巴是如何做的。






超大规模GPU集群标准化运维能力建设



李冬堃

阿里巴巴

机器学习SRE团队负责人


听众收益 .

1、阿里巴巴机器学习PAI运维工作进化史;

2、超大规模智算集群统一运维底座能力介绍;

3、细化到GPU卡维度可观测体系与稳定性体系设计。

议题简介 .

主要介绍阿里云机器学习PAI产品的基础运维工作中遇到的挑战,以及如何通过平台化手段在服务稳定性、可观测以及产品统一运维底座的建设。

演讲提纲 .

1、团队核心工作介绍

2、细化到GPU卡维度的产品可观测体系与稳定性体系建设

3、由内而外统一机器学习产品运维底座

个人简介 .

目前负责阿里云计算平台机器学习SRE团队,团队负责业务涵盖阿里云机器学习PAI以及阿里云PAI灵骏产品的运维和运维平台开发工作。





精彩议题抢先看(持续更新)





联系我们

商务赞助及合作:

周静:130 7118 2180(微信同号)

任怡:132 6958 7068(微信同号) 

门票咨询:

李伟:130 2108 2989(微信同号)

渠道合作:

刘欣:158 0111 5386(微信同号) 

王子翰:185 4893 3915(微信同号)

议题申报:

刘杰:156 5212 7323(微信同号)

高婉莹:185 1087 3635(微信同号)



现在报名立享 9 折优惠!


点击阅读原文,访问 GOPS 大会官网

标签

发表评论

苏ICP备2023052359号-1