Ray 集群概览#
Ray 能够将工作负载从笔记本电脑无缝扩展到大型集群。虽然 Ray 在单台机器上只需调用 ray.init 即可开箱即用,但在多台节点上运行 Ray 应用程序,则必须先部署 Ray 集群。
Ray 集群是一组连接到通用 Ray 头节点 的工作节点。Ray 集群可以固定大小,也可以根据集群上运行的应用程序请求的资源 向上和向下自动扩展。
我可以在哪里部署 Ray 集群?#
Ray 在以下技术栈上提供原生的集群部署支持:
在 AWS, GCP 和 Azure 上。社区也支持 Aliyun 和 vSphere 集成。
在 Kubernetes 上,通过官方支持的 KubeRay 项目。
在 Anyscale 上,这是由 Ray 的创建者提供的完全托管的 Ray 平台。您可以选择自带现有的 AWS, GCP, Azure 和 Kubernetes 集群,或者使用 Anyscale 托管的计算层。
高级用户可以 手动部署 Ray 或部署到 此处未列出的平台。
注意
多节点 Ray 集群仅在 Linux 上受支持。自行承担风险,您可以通过在部署期间设置环境变量 RAY_ENABLE_WINDOWS_OR_OSX_CLUSTER=1 来部署 Windows 和 OSX 集群。
接下来做什么?#
我想了解 Ray 集群的关键概念
了解 Ray 集群的关键概念以及与之交互的主要方式。
我想在 Kubernetes 上运行 Ray
将 Ray 应用程序部署到 Kubernetes 集群。您可以在 Kubernetes 集群上或通过 Kind 在笔记本电脑上运行本教程。
我想在云提供商上运行 Ray
运行一个设计用于在笔记本电脑上运行的示例应用程序,并将其扩展到云端。需要访问 AWS 或 GCP 账户。
我想在现有的 Ray 集群上运行我的应用程序
有关将应用程序作为作业提交到现有 Ray 集群的指南。