监控和调试#
本节介绍如何使用 Ray 的可观测性功能来监控和调试 Ray 应用程序和集群。
什么是可观测性#
总的来说,可观测性是指根据对系统外部输出的了解,在多大程度上可以推断出系统的内部状态。
在 Ray 的语境中,可观测性指的是用户能够通过各种外部输出来观察和推断 Ray 应用程序和 Ray 集群的内部状态,例如日志、指标、事件等。

可观测性的重要性#
由于分布式系统的规模庞大且复杂,调试分布式系统可能具有挑战性。良好的可观测性对于 Ray 用户能够轻松监控和调试其 Ray 应用程序和集群至关重要。

监控和调试工作流程和工具#
监控和调试 Ray 应用程序包括 4 个主要步骤:
监控集群和应用程序。
识别出现的问题或错误。
使用各种工具和数据进行调试。
形成假设,实施修复,并进行验证。
本节的其余部分将介绍 Ray 提供的可观测性工具,以加速您的监控和调试工作流程。