使用 GPU 启动适用于 KubeRay 的 Azure AKS 集群#

本指南将引导您完成创建带有 GPU 节点、专用于 KubeRay 的 Azure AKS 集群的步骤。此处概述的配置可应用于文档中的大多数 KubeRay 示例。

您可以在此处找到 AKS 的登录页面。如果您已设置帐户,则可以立即在提供商的控制台中开始试验 Kubernetes 集群。此外,还可以查阅文档快速入门指南。要在 Kubernetes 上成功部署 Ray,您需要按照此处的指南使用节点池。

步骤 1:创建资源组#

在特定区域创建资源组

az group create -l eastus -n kuberay-rg

步骤 2:创建 AKS 集群#

创建带有系统节点池的 AKS 集群

az aks create \
   -g kuberay-rg \
   -n kuberay-gpu-cluster \
   --nodepool-name system \
   --node-vm-size Standard_D8s_v3 \
   --node-count 3

步骤 3:添加 GPU 节点组#

添加带自动扩缩容的 GPU 节点池

az aks nodepool add \
   -g kuberay-rg \
   --cluster-name kuberay-gpu-cluster \
   --nodepool-name gpupool \
   --node-vm-size Standard_NC6s_v3 \
   --node-taints nvidia.com/gpu=present:NoSchedule \
   --min-count 0 \
   --max-count 3 \
   --enable-cluster-autoscaler

或者,要使用 Nvidia GPU Operator,请按照此处的说明操作

步骤 4:获取 kubeconfig#

获取 kubeconfig

az aks get-credentials --resource-group kuberay-rg \
    --name kuberay-gpu-cluster \
    --overwrite-existing