云容器引擎 CCE-使用Kubeflow和Volcano实现典型AI训练任务:Volcano批量调度系统:加速AI计算的利器

时间:2023-11-01 16:18:15

Volcano批量调度系统:加速AI计算的利器

Volcano是一款构建于Kubernetes之上的增强型高性能计算任务批量处理系统。作为一个面向高性能计算场景的平台,它弥补了Kubernetes在机器学习、深度学习、HPC、大数据计算等场景下的基本能力缺失,其中包括gang-schedule的调度能力、计算任务队列管理、task-topology和GPU亲和性调度。另外,Volcano在原生Kubernetes能力基础上对计算任务的批量创建及生命周期管理、fair-share、binpack调度等方面做了增强。Volcano充分解决了上文提到的Kubeflow分布式训练面临的问题。

Volcano更多信息请参见:https://github.com/volcano-sh/volcano

support.huaweicloud.com/bestpractice-cce/cce_bestpractice_0075.html