在阿里云 ACK 上启动带 GPU 的 KubeRay 集群#

本指南提供了有关使用 KubeRay 配置的 GPU 节点创建 ACK 集群的分步说明。此处概述的配置可应用于文档中的大多数 KubeRay 示例。

步骤 1:在阿里云 ACK 上创建 Kubernetes 集群#

请参阅 创建集群 来创建阿里云 ACK 集群,并参阅 连接到集群 来配置您的计算机以与集群通信。

步骤 2:为阿里云 ACK 集群创建节点池#

请参阅 创建节点池 来创建节点池。

管理节点标签和污点#

如果您需要为节点设置污点,请参阅 创建和管理节点标签创建和管理节点污点。例如,您可以向 GPU 节点池添加污点,以便 Ray 不会在这些节点上调度 head pod。

升级节点上的驱动程序#

如果您需要升级节点上的驱动程序,请参阅 步骤 2:创建节点池并指定 NVIDIA 驱动程序版本 来升级驱动程序。

步骤 3:在集群中安装 KubeRay 插件#

请参阅 步骤 2:安装 KubeRay-Operator 以在 ACK 中部署 KubeRay。