Ray Train 指标#

Ray Train 会导出 Prometheus 指标,包括 Ray Train 控制器状态、工作节点组启动时间、检查点保存时间等。您可以使用这些指标来监控 Ray Train 的运行。Ray Dashboard 在 Ray Train Grafana Dashboard 中显示这些指标。有关更多信息,请参阅 Ray Dashboard 文档

Ray Train Dashboard 还显示了一部分有助于监控训练但未在下表中列出的 Ray Core 指标。有关这些指标的更多信息,请参阅 系统指标文档

下表列出了 Ray Train 发出的 Prometheus 指标

训练指标#

Prometheus 指标

标签

描述

ray_train_controller_state

ray_train_run_name, ray_train_run_id, ray_train_controller_state

Ray Train 控制器的当前状态。

ray_train_worker_group_start_total_time_s

ray_train_run_name, ray_train_run_id

启动工作节点组所花费的总时间。

ray_train_worker_group_shutdown_total_time_s

ray_train_run_name, ray_train_run_id

关闭工作节点组所花费的总时间。

ray_train_report_total_blocked_time_s

ray_train_run_name, ray_train_run_id, ray_train_worker_world_rank, ray_train_worker_actor_id

向存储报告检查点所花费的累积时间(秒)。