为 KubeRay 启动带 GPU 的 Azure AKS 集群#

本指南将引导您完成创建带 GPU 节点、专为 KubeRay 设计的 Azure AKS 集群的步骤。此处概述的配置可应用于文档中的大多数 KubeRay 示例。

您可以在这里找到 AKS 的着陆页。如果您已设置账户,即可立即在提供商的控制台中开始尝试 Kubernetes 集群。或者,您可以查看文档快速入门指南。要成功将 Ray 部署到 Kubernetes,您需要按照此处的指导使用节点池。

步骤 1:创建资源组#

在特定区域创建资源组

az group create -l eastus -n kuberay-rg

步骤 2:创建 AKS 集群#

使用系统节点池创建 AKS 集群

az aks create \
   -g kuberay-rg \
   -n kuberay-gpu-cluster \
   --nodepool-name system \
   --node-vm-size Standard_D8s_v3 \
   --node-count 3

步骤 3:添加 GPU 节点组#

添加带自动缩放功能的 GPU 节点池

az aks nodepool add \
   -g kuberay-rg \
   --cluster-name kuberay-gpu-cluster \
   --nodepool-name gpupool \
   --node-vm-size Standard_NC6s_v3 \
   --node-taints nvidia.com/gpu=present:NoSchedule \
   --min-count 0 \
   --max-count 3 \
   --enable-cluster-autoscaler

要改用 NVIDIA GPU Operator,请遵循此处的说明

步骤 4:获取 kubeconfig#

获取 kubeconfig

az aks get-credentials --resource-group kuberay-rg \
    --name kuberay-gpu-cluster \
    --overwrite-existing