在 LSF 上部署#

本文档描述了在 LSF 上运行 Ray 集群的几个高级步骤。

  1. 使用 bsub 指令从 LSF 调度器获取所需的节点。

  2. 在所需节点上获取空闲端口,用于启动 ray dashboard、GCS 等服务。

  3. 在其中一个可用节点上启动 ray head 节点。

  4. 将所有 worker 节点连接到 head 节点。

  5. 执行端口转发以访问 ray dashboard。

步骤 1-4 已自动化,可以作为脚本轻松运行,请参考下面的 github 仓库以获取脚本并运行示例工作负载

  • ray_LSF Ray 与 LSF 集成。用户可以在 LSF 上启动 Ray 集群,并通过它以批处理或交互模式运行 DL 工作负载。