内存不足预防#

如果应用任务或 actor 消耗大量堆空间，可能会导致节点内存不足 (OOM)。发生这种情况时，操作系统会开始杀死 worker 或 raylet 进程，从而中断应用。OOM 还可能导致指标停滞，如果发生在头部节点上，可能会导致 dashboard 或其他控制进程停滞，并导致集群不可用。

在本节中，我们将介绍

内存监控器是什么以及它的工作原理
如何启用和配置它
如何使用内存监控器检测和解决内存问题

另请参阅调试内存不足，了解如何排查内存不足问题。

内存监控器是什么？#

内存监控器是运行在每个节点 raylet 进程中的一个组件。它会定期检查内存使用情况，包括 worker 堆、对象存储和 raylet，如内存管理中所述。如果总使用量超过可配置的阈值，raylet 将杀死一个任务或 actor 进程以释放内存并防止 Ray 失败。

它可在 Linux 上使用，并在使用 cgroup v1/v2 的容器中运行的 Ray 上进行了测试。如果在容器外部运行内存监控器时遇到问题，请提交问题或提问。

如何禁用内存监控器？#

内存监控器默认启用，可以通过在 Ray 启动时将环境变量 RAY_memory_monitor_refresh_ms 设置为零来禁用（例如，RAY_memory_monitor_refresh_ms=0 ray start …）。

如何配置内存监控器？#

内存监控器由以下环境变量控制

RAY_memory_monitor_refresh_ms (int，默认为 250) 是检查内存使用并根据需要杀死任务或 actor 的间隔。当该值为 0 时，禁用任务杀死。内存监控器一次选择并杀死一个任务，并在选择下一个任务之前等待其被杀死，无论内存监控器运行频率如何。
RAY_memory_usage_threshold (float，默认为 0.95) 是节点超出内存容量的阈值。如果内存使用量超过此比例，它将开始杀死进程以释放内存。范围为 [0, 1]。

使用内存监控器#

重试策略#

当任务或 actor 被内存监控器杀死时，它将以指数退避方式重试。重试延迟有上限，为 60 秒。如果任务被内存监控器杀死，它会无限重试（不遵守 max_retries）。如果 actor 被内存监控器杀死，它不会无限期地重新创建 actor（它遵守 max_restarts，默认为 0）。

Worker 杀死策略#

内存监控器通过确保每个节点上的每个调用者至少有一个任务能够运行来避免任务无限重试的循环。如果无法保证这一点，工作负载将因 OOM 错误而失败。请注意，这仅是任务的问题，因为内存监控器不会无限期地重试 actor。如果工作负载失败，请参阅如何解决内存问题，了解如何调整工作负载以使其通过。有关代码示例，请参见下面的最后一个任务示例。

当需要杀死 worker 时，策略首先优先杀死可重试的任务，即当 max_retries 或 max_restarts > 0 时。这样做是为了最大程度地减少工作负载失败。Actor 默认不可重试，因为 max_restarts 默认为 0。因此，默认情况下，在选择要先杀死哪个进程时，任务优先于 actor。

当有多个调用者创建了任务时，策略将从运行任务数量最多的调用者中选择一个任务。如果两个调用者拥有相同数量的任务，它将选择其最早任务启动时间较晚的调用者。这样做是为了确保公平性并允许每个调用者取得进展。

在共享相同调用者的任务中，最新启动的任务将首先被杀死。

下面是一个示例来演示该策略。在此示例中，我们有一个创建两个任务的脚本，这两个任务又分别创建了四个任务。任务按颜色着色，以便每种颜色形成一个任务“组”，它们属于同一个调用者。

如果此时节点内存不足，它将从运行任务数量最多的调用者中选择一个任务，并杀死其最后启动的任务

如果此时节点仍然内存不足，该过程将重复

解决内存问题#

当应用因 OOM 失败时，请考虑减少任务和 actor 的内存使用，增加节点的内存容量，或限制同时运行的任务数量。

问题或议题？#

您可以通过以下渠道发布问题、议题或反馈

讨论区：用于 Ray 使用问题或功能请求。
GitHub Issues：用于bug 报告。
Ray Slack：用于联系 Ray 维护者。
StackOverflow：使用 [ray] 标签提问 Ray 相关问题。