Ray 在 Kubernetes 上#

概述#

本节介绍如何在 Kubernetes 集群上执行您的分布式 Ray 程序。

使用 KubeRay operator 是推荐的方法。该 operator 提供了一种 Kubernetes 原生的方式来管理 Ray 集群。每个 Ray 集群由一个头节点 pod 和一组工作节点 pod 组成。可选的自动伸缩支持允许 KubeRay operator 根据您的 Ray 工作负载需求调整 Ray 集群大小,按需添加和移除 Ray pod。KubeRay 支持异构计算节点(包括 GPU),并在同一 Kubernetes 集群中运行不同 Ray 版本的多个 Ray 集群。

../../_images/ray_on_kubernetes.png

KubeRay 引入了三个不同的 Kubernetes 自定义资源定义 (CRD):RayClusterRayJobRayService。这些 CRD 帮助用户高效地管理根据各种用例量身定制的 Ray 集群。

请参阅 入门 了解 KubeRay 的基础知识,并按照快速入门指南使用 KubeRay 在 Kubernetes 上运行您的第一个 Ray 应用。

此外,Anyscale 是由 Ray 创建者开发的托管 Ray 平台。它提供了在您现有的 Kubernetes 基础设施上部署 Ray 集群的便捷途径,包括 EKS、GKE、AKS 或自托管 Kubernetes。

了解更多#

Ray 文档提供了您开始在 Kubernetes 上运行 Ray 工作负载所需的所有信息。

入门

了解如何在 Kubernetes 上启动 Ray 集群并部署 Ray 应用。

用户指南

了解在 Kubernetes 上配置 Ray 集群的最佳实践。

示例

尝试在 Kubernetes 上运行 Ray 工作负载示例。

生态系统

将 KubeRay 与第三方 Kubernetes 生态系统工具集成。

基准测试

查看 KubeRay 基准测试结果。

故障排除

查阅 KubeRay 故障排除指南。

关于 KubeRay#

Ray 的 Kubernetes 支持是在 KubeRay GitHub 仓库 开发的,隶属于更广泛的 Ray 项目。多家公司使用 KubeRay 来运行生产环境的 Ray 部署。