KubeRay 指标参考#

controller-runtime 指标#

KubeRay 公开了由 kubernetes-sigs/controller-runtime 提供的指标,包括有关协调、工作队列等信息,以帮助用户在生产环境中操作 KubeRay operator。

有关 kubernetes-sigs/controller-runtime 提供的默认指标的更多详细信息,请参阅 默认导出指标参考

KubeRay 自定义指标#

从 KubeRay 1.4.0 开始,KubeRay 为其自定义资源提供了指标,以帮助用户更好地了解 Ray 集群和 Ray 应用。

您可以通过遵循以下说明来查看这些指标:

# Forward a local port to the KubeRay operator service.
kubectl port-forward service/kuberay-operator 8080

# View the metrics.
curl localhost:8080/metrics

# You should see metrics like the following if a RayCluster already exists:  
# kuberay_cluster_info{name="raycluster-kuberay",namespace="default",owner_kind="None"} 1

RayCluster 指标#

指标名称

类型

描述

标签

kuberay_cluster_info

Gauge

有关 RayCluster 自定义资源的元数据信息。

namespace: <RayCluster-namespace>
name: <RayCluster-name>
owner_kind: <RayJob|RayService|None>
uid: <RayCluster-uid>

kuberay_cluster_condition_provisioned

Gauge

指示 RayCluster 是否已成功配置。有关更多信息,请参阅 RayClusterProvisioned

namespace: <RayCluster-namespace>
name: <RayCluster-name>
condition: <true|false>
uid: <RayCluster-uid>

kuberay_cluster_provisioned_duration_seconds

Gauge

RayCluster 的 RayClusterProvisioned 状态从 false(或未设置)转换为 true 所花费的时间(秒)。

namespace: <RayCluster-namespace>
name: <RayCluster-name>
uid: <RayCluster-uid>

RayService 指标#

指标名称

类型

描述

标签

kuberay_service_info

Gauge

有关 RayService 自定义资源的元数据信息。

namespace: <RayService-namespace>
name: <RayService-name>
uid: <RayService-uid>

kuberay_service_condition_ready

Gauge

描述 RayService 是否已准备就绪。准备就绪意味着用户可以向底层集群发送请求,并且服务终结点数量大于 0。有关更多信息,请参阅 RayServiceReady

namespace: <RayService-namespace>
name: <RayService-name>
uid: <RayService-uid>

kuberay_service_condition_upgrade_in_progress

Gauge

描述 RayService 是否正在执行零停机升级。有关更多信息,请参阅 UpgradeInProgress

namespace: <RayService-namespace>
name: <RayService-name>
uid: <RayService-uid>

RayJob 指标#

指标名称

类型

描述

标签

kuberay_job_info

Gauge

有关 RayJob 自定义资源的元数据信息。

namespace: <RayJob-namespace>
name: <RayJob-name>
uid: <RayJob-uid>

kuberay_job_deployment_status

Gauge

RayJob 的当前部署状态。

namespace: <RayJob-namespace>
name: <RayJob-name>
deployment_status: <New|Initializing|Running|Complete|Failed|Suspending|Suspended|Retrying|Waiting>
uid: <RayJob-uid>

kuberay_job_execution_duration_seconds

Gauge

RayJob CR 的 JobDeploymentStatus 从 Initializing 转换为 Retrying 状态或终止状态(如 CompleteFailed)的持续时间。 Retrying 状态表示 CR 之前失败并且启用了 spec.backoffLimit。

namespace: <RayJob-namespace>
name: <RayJob-name>
job_deployment_status: <Complete|Failed>
retry_count: <count>
uid: <RayJob-uid>