Ray 集群概览#
Ray 能够将工作负载从笔记本电脑无缝扩展到大型集群。Ray 在单机上只需调用 ray.init
即可立即工作,但要在多节点上运行 Ray 应用,必须首先部署一个 Ray 集群。
Ray 集群是一组连接到通用 Ray 头节点 的工作节点集合。Ray 集群可以是固定大小的,也可以根据集群上运行的应用请求的资源 自动向上或向下扩缩容。
在哪里可以部署 Ray 集群?#
Ray 在以下技术栈上提供原生集群部署支持
在 AWS 和 GCP 上。还存在社区支持的 Azure、阿里云和 vSphere 集成。
在 Kubernetes 上,通过官方支持的 KubeRay 项目。
在 Anyscale 上,这是一个由 Ray 创建者提供的完全托管的 Ray 平台。你可以使用现有的 AWS、GCP、Azure 和 Kubernetes 集群,或使用 Anyscale 托管的计算层。
高级用户可能希望手动部署 Ray 或部署到此处未列出的平台。
注意
Ray 多节点集群仅支持 Linux。风险自负,你可以通过在部署期间设置环境变量 RAY_ENABLE_WINDOWS_OR_OSX_CLUSTER=1
来部署 Windows 和 OSX 集群。
下一步是什么?#
我想学习关键的 Ray 集群概念
理解与 Ray 集群交互的关键概念和主要方式。
我想在 Kubernetes 上运行 Ray
将 Ray 应用部署到 Kubernetes 集群。你可以在 Kubernetes 集群或通过 Kind 在笔记本电脑上运行本教程。
我想在云服务商上运行 Ray
获取一个设计用于在笔记本电脑上运行的示例应用,并在云端进行扩展。需要 AWS 或 GCP 账户访问权限。
我想在现有的 Ray 集群上运行我的应用
将应用作为 Job 提交到现有 Ray 集群的指南。