Ray 程序测试技巧#

由于并行程序的特性，测试 Ray 程序可能有点棘手。我们整理了一系列关于 Ray 程序常见测试实践的技巧和诀窍。

技巧 1：使用 `ray.init(num_cpus=...)` 固定资源数量 #

默认情况下，ray.init() 会检测您本地机器/集群上的 CPU 和 GPU 数量。

然而，您的测试环境可能具有明显较低的资源数量。例如，TravisCI 构建环境只有 2 核

如果测试依赖于 ray.init() 编写，它们可能隐含地依赖于更大的多核机器。

这很容易导致测试出现意想不到、不稳定或错误的行为，且难以重现。

为了克服这一点，您应该通过在 ray.init 中设置检测到的资源来覆盖它们，例如：ray.init(num_cpus=2)

技巧 3：使用 `ray.cluster_utils.Cluster` 创建一个迷你集群 #

如果您正在为集群环境编写应用程序，您可能希望模拟一个多节点 Ray 集群。这可以通过 ray.cluster_utils.Cluster 实用工具来完成。

注意

在 Windows 上，多节点 Ray 集群的支持目前是实验性的且未经测试。如果您遇到问题，请在 ray-project/ray#issues 提交报告。

from ray.cluster_utils import Cluster

# Starts a head-node for the cluster.
cluster = Cluster(
    initialize_head=True,
    head_node_args={
        "num_cpus": 10,
    })

启动集群后，您可以在同一个进程中执行典型的 Ray 脚本

import ray

ray.init(address=cluster.address)

@ray.remote
def f(x):
    return x

for _ in range(1):
    ray.get([f.remote(1) for _ in range(1000)])

for _ in range(10):
    ray.get([f.remote(1) for _ in range(100)])

for _ in range(100):
    ray.get([f.remote(1) for _ in range(10)])

for _ in range(1000):
    ray.get([f.remote(1) for _ in range(1)])

您还可以添加多个节点，每个节点具有不同的资源数量

mock_node = cluster.add_node(num_cpus=10)

assert ray.cluster_resources()["CPU"] == 20

您还可以移除节点，这在测试故障处理逻辑时很有用

cluster.remove_node(mock_node)

assert ray.cluster_resources()["CPU"] == 10

更多详情请参阅集群实用工具。

技巧 4：并行运行测试时要小心 #

由于 Ray 会启动多种服务，如果一次启动的服务过多，很容易触发超时。因此，当使用 pytest xdist 等工具并行运行多个测试时，应注意这可能会给测试环境带来不稳定性。

Ray 程序测试技巧#

技巧 1：使用 ray.init(num_cpus=...) 固定资源数量#

技巧 2：如果可能，在测试之间共享 Ray 集群#

技巧 3：使用 ray.cluster_utils.Cluster 创建一个迷你集群#

技巧 4：并行运行测试时要小心#

技巧 1：使用 `ray.init(num_cpus=...)` 固定资源数量 #

技巧 2：如果可能，在测试之间共享 Ray 集群 #

技巧 3：使用 `ray.cluster_utils.Cluster` 创建一个迷你集群 #

技巧 4：并行运行测试时要小心 #