监控与调试#

本节介绍如何使用 Ray 的可观测性特性来监控和调试 Ray 应用和集群

什么是可观测性#

一般来说,可观测性衡量的是通过了解系统的外部输出,可以多大程度上推断出系统的内部状态。

在 Ray 的上下文中,可观测性指的是用户能够通过日志、指标、事件等各种外部输出,观察和推断 Ray 应用及 Ray 集群内部状态的能力。

what is ray's observability

可观测性的重要性#

分布式系统的调试因规模大和复杂性高而充满挑战。良好的可观测性对于 Ray 用户轻松监控和调试他们的 Ray 应用和集群至关重要。

Importance of observability

监控与调试工作流和工具#

Ray 应用的监控和调试主要包含 4 个步骤

  1. 监控集群和应用。

  2. 识别表面问题或错误。

  3. 使用各种工具和数据进行调试。

  4. 形成假设,实施修复,并进行验证。

本节的其余部分将介绍 Ray 提供的可观测性工具,以加速你的监控和调试工作流程。