在 LSF 上部署#
本文档描述了在 LSF 上运行 Ray 集群的几个高级步骤。
使用 bsub 指令从 LSF 调度器获取所需的节点。
在所需节点上获取空闲端口,用于启动 ray dashboard、GCS 等服务。
在其中一个可用节点上启动 ray head 节点。
将所有 worker 节点连接到 head 节点。
执行端口转发以访问 ray dashboard。
步骤 1-4 已自动化,可以作为脚本轻松运行,请参考下面的 github 仓库以获取脚本并运行示例工作负载
ray_LSF Ray 与 LSF 集成。用户可以在 LSF 上启动 Ray 集群,并通过它以批处理或交互模式运行 DL 工作负载。