为 KubeRay 启动带 GPU 的 Azure AKS 集群#
本指南将引导您完成创建带 GPU 节点、专为 KubeRay 设计的 Azure AKS 集群的步骤。此处概述的配置可应用于文档中的大多数 KubeRay 示例。
您可以在这里找到 AKS 的着陆页。如果您已设置账户,即可立即在提供商的控制台中开始尝试 Kubernetes 集群。或者,您可以查看文档和快速入门指南。要成功将 Ray 部署到 Kubernetes,您需要按照此处的指导使用节点池。
步骤 1:创建资源组#
在特定区域创建资源组
az group create -l eastus -n kuberay-rg
步骤 2:创建 AKS 集群#
使用系统节点池创建 AKS 集群
az aks create \
-g kuberay-rg \
-n kuberay-gpu-cluster \
--nodepool-name system \
--node-vm-size Standard_D8s_v3 \
--node-count 3
步骤 3:添加 GPU 节点组#
添加带自动缩放功能的 GPU 节点池
az aks nodepool add \
-g kuberay-rg \
--cluster-name kuberay-gpu-cluster \
--nodepool-name gpupool \
--node-vm-size Standard_NC6s_v3 \
--node-taints nvidia.com/gpu=present:NoSchedule \
--min-count 0 \
--max-count 3 \
--enable-cluster-autoscaler
要改用 NVIDIA GPU Operator,请遵循此处的说明
步骤 4:获取 kubeconfig#
获取 kubeconfig
az aks get-credentials --resource-group kuberay-rg \
--name kuberay-gpu-cluster \
--overwrite-existing