监控和调试#

本节介绍如何使用 Ray 的可观测性功能来监控和调试 Ray 应用程序和集群

什么是可观测性#

总的来说,可观测性是指根据对系统外部输出的了解,在多大程度上可以推断出系统的内部状态。

在 Ray 的语境中,可观测性指的是用户能够通过各种外部输出来观察和推断 Ray 应用程序和 Ray 集群的内部状态,例如日志、指标、事件等。

what is ray's observability

可观测性的重要性#

由于分布式系统的规模庞大且复杂,调试分布式系统可能具有挑战性。良好的可观测性对于 Ray 用户能够轻松监控和调试其 Ray 应用程序和集群至关重要。

Importance of observability

监控和调试工作流程和工具#

监控和调试 Ray 应用程序包括 4 个主要步骤:

  1. 监控集群和应用程序。

  2. 识别出现的问题或错误。

  3. 使用各种工具和数据进行调试。

  4. 形成假设,实施修复,并进行验证。

本节的其余部分将介绍 Ray 提供的可观测性工具,以加速您的监控和调试工作流程。