使用 GPU 启动适用于 KubeRay 的 Azure AKS 集群#
本指南将引导您完成创建带有 GPU 节点、专用于 KubeRay 的 Azure AKS 集群的步骤。此处概述的配置可应用于文档中的大多数 KubeRay 示例。
您可以在此处找到 AKS 的登录页面。如果您已设置帐户,则可以立即在提供商的控制台中开始试验 Kubernetes 集群。此外,还可以查阅文档和快速入门指南。要在 Kubernetes 上成功部署 Ray,您需要按照此处的指南使用节点池。
步骤 1:创建资源组#
在特定区域创建资源组
az group create -l eastus -n kuberay-rg
步骤 2:创建 AKS 集群#
创建带有系统节点池的 AKS 集群
az aks create \
-g kuberay-rg \
-n kuberay-gpu-cluster \
--nodepool-name system \
--node-vm-size Standard_D8s_v3 \
--node-count 3
步骤 3:添加 GPU 节点组#
添加带自动扩缩容的 GPU 节点池
az aks nodepool add \
-g kuberay-rg \
--cluster-name kuberay-gpu-cluster \
--nodepool-name gpupool \
--node-vm-size Standard_NC6s_v3 \
--node-taints nvidia.com/gpu=present:NoSchedule \
--min-count 0 \
--max-count 3 \
--enable-cluster-autoscaler
或者,要使用 Nvidia GPU Operator,请按照此处的说明操作
步骤 4:获取 kubeconfig#
获取 kubeconfig
az aks get-credentials --resource-group kuberay-rg \
--name kuberay-gpu-cluster \
--overwrite-existing