为 KubeRay 启动带有 GPU 的 Amazon EKS 集群#

本指南将引导您完成创建专用于 KubeRay 的、带有 GPU 节点的 Amazon EKS 集群的步骤。这里概述的配置适用于文档中大多数 KubeRay 示例。

步骤 1:在 Amazon EKS 上创建 Kubernetes 集群#

按照这份 AWS 文档中的前两个步骤进行操作:(1) 创建您的 Amazon EKS 集群,以及 (2) 配置您的计算机以与您的集群通信。

步骤 2:为 Amazon EKS 集群创建节点组#

按照这份 AWS 文档中的“步骤 3:创建节点”创建节点组。以下部分提供更详细的信息。

创建 CPU 节点组#

通常,避免在 Ray head 上运行 GPU 工作负载。为除 Ray GPU worker 外的所有 Pod 创建一个 CPU 节点组,例如 KubeRay operator、Ray head 和 CoreDNS Pod。

以下是文档中大多数 KubeRay 示例适用的常见配置

  • 实例类型:m5.xlarge (4 个 vCPU;16 GB RAM)

  • 磁盘大小:256 GB

  • 期望大小:1,最小大小:0,最大大小:1

创建 GPU 节点组#

为 Ray GPU worker 创建一个 GPU 节点组。

  1. 以下是文档中大多数 KubeRay 示例适用的常见配置

    • AMI 类型:Bottlerocket NVIDIA (BOTTLEROCKET_x86_64_NVIDIA)

    • 实例类型:g5.xlarge (1 个 GPU;24 GB GPU 内存;4 个 vCPU;16 GB RAM)

    • 磁盘大小:1024 GB

    • 期望大小:1,最小大小:0,最大大小:1

  2. 请安装 NVIDIA 设备插件。(注意:如果您在上述步骤中使用了 BOTTLEROCKET_x86_64_NVIDIA AMI,则可以跳过此步骤。)

    • 安装用于 NVIDIA 设备插件的 DaemonSet,以便在您的 Amazon EKS 集群中运行启用 GPU 的容器。您可以参考Amazon EKS 优化加速 Amazon Linux AMINVIDIA/k8s-device-plugin 仓库了解更多详细信息。

    • 如果 GPU 节点存在污点 (taints),请向 nvidia-device-plugin.yml 添加 tolerations,以使 DaemonSet 能够在 GPU 节点上调度 Pod。

    注意: 如果您在使用 kubectl 时遇到权限问题,请按照AWS 文档中的“步骤 2:配置您的计算机以与您的集群通信”进行操作。

    # Install the DaemonSet
    kubectl apply -f https://raw.githubusercontent.com/NVIDIA/k8s-device-plugin/v0.9.0/nvidia-device-plugin.yml
    
    # Verify that your nodes have allocatable GPUs. If the GPU node fails to detect GPUs,
    # please verify whether the DaemonSet schedules the Pod on the GPU node.
    kubectl get nodes "-o=custom-columns=NAME:.metadata.name,GPU:.status.allocatable.nvidia\.com/gpu"
    
    # Example output:
    # NAME                                GPU
    # ip-....us-west-2.compute.internal   4
    # ip-....us-west-2.compute.internal   <none>
    
  3. 添加 Kubernetes 污点以防止在此 GPU 节点组上调度 CPU Pod。对于 KubeRay 示例,请向 GPU 节点添加以下污点:Key: ray.io/node-type, Value: worker, Effect: NoSchedule,并包含相应的用于 GPU Ray worker Pod 的 tolerations

    警告:GPU 节点非常昂贵。如果您不再需要集群,请务必删除它。

步骤 3:验证节点组#

注意: 如果您在使用 eksctl 时遇到权限问题,请前往您的 AWS 账户网页,并从“命令行或编程访问”页面复制凭证环境变量,包括 AWS_ACCESS_KEY_IDAWS_SECRET_ACCESS_KEYAWS_SESSION_TOKEN

eksctl get nodegroup --cluster ${YOUR_EKS_NAME}

# CLUSTER         NODEGROUP       STATUS  CREATED                 MIN SIZE        MAX SIZE        DESIRED CAPACITY        INSTANCE TYPE   IMAGE ID                        ASG NAME                           TYPE
# ${YOUR_EKS_NAME}     cpu-node-group  ACTIVE  2023-06-05T21:31:49Z    0               1               1                       m5.xlarge       AL2_x86_64                      eks-cpu-node-group-...     managed
# ${YOUR_EKS_NAME}     gpu-node-group  ACTIVE  2023-06-05T22:01:44Z    0               1               1                       g5.12xlarge     BOTTLEROCKET_x86_64_NVIDIA      eks-gpu-node-group-...     managed