监控与调试#
本节介绍如何使用 Ray 的可观测性特性来监控和调试 Ray 应用和集群。
什么是可观测性#
一般来说,可观测性衡量的是通过了解系统的外部输出,可以多大程度上推断出系统的内部状态。
在 Ray 的上下文中,可观测性指的是用户能够通过日志、指标、事件等各种外部输出,观察和推断 Ray 应用及 Ray 集群内部状态的能力。
可观测性的重要性#
分布式系统的调试因规模大和复杂性高而充满挑战。良好的可观测性对于 Ray 用户轻松监控和调试他们的 Ray 应用和集群至关重要。
监控与调试工作流和工具#
Ray 应用的监控和调试主要包含 4 个步骤
监控集群和应用。
识别表面问题或错误。
使用各种工具和数据进行调试。
形成假设,实施修复,并进行验证。
本节的其余部分将介绍 Ray 提供的可观测性工具,以加速你的监控和调试工作流程。