在 LSF 上部署#

本文档描述了在 LSF 上运行 Ray 集群的几个高级步骤。

  1. 使用 bsub 指令从 LSF 调度器获取所需的节点。

  2. 在所需的节点上获取可用端口,以启动 ray 的 dashboard、GCS 等服务。

  3. 在其中一个可用节点上启动 ray head 节点。

  4. 将所有 worker 节点连接到 head 节点。

  5. 执行端口转发以访问 ray dashboard。

步骤 1-4 已自动化,可以轻松地作为脚本运行。请参阅下面的 github 仓库以访问脚本并运行示例工作负载。

  • ray_LSF LSF 上的 Ray。用户可以在 LSF 上启动 Ray 集群,并通过该集群以批处理或交互模式运行 DL 工作负载。