KubeRay 指标参考#
controller-runtime 指标#
KubeRay 公开了由 kubernetes-sigs/controller-runtime 提供的指标,包括有关协调、工作队列等信息,以帮助用户在生产环境中操作 KubeRay operator。
有关 kubernetes-sigs/controller-runtime 提供的默认指标的更多详细信息,请参阅 默认导出指标参考。
KubeRay 自定义指标#
从 KubeRay 1.4.0 开始,KubeRay 为其自定义资源提供了指标,以帮助用户更好地了解 Ray 集群和 Ray 应用。
您可以通过遵循以下说明来查看这些指标:
# Forward a local port to the KubeRay operator service.
kubectl port-forward service/kuberay-operator 8080
# View the metrics.
curl localhost:8080/metrics
# You should see metrics like the following if a RayCluster already exists:
# kuberay_cluster_info{name="raycluster-kuberay",namespace="default",owner_kind="None"} 1
RayCluster 指标#
指标名称 |
类型 |
描述 |
标签 |
|---|---|---|---|
|
Gauge |
有关 RayCluster 自定义资源的元数据信息。 |
|
|
Gauge |
指示 RayCluster 是否已成功配置。有关更多信息,请参阅 RayClusterProvisioned。 |
|
|
Gauge |
RayCluster 的 |
|
RayService 指标#
指标名称 |
类型 |
描述 |
标签 |
|---|---|---|---|
|
Gauge |
有关 RayService 自定义资源的元数据信息。 |
|
|
Gauge |
描述 RayService 是否已准备就绪。准备就绪意味着用户可以向底层集群发送请求,并且服务终结点数量大于 0。有关更多信息,请参阅 RayServiceReady。 |
|
|
Gauge |
描述 RayService 是否正在执行零停机升级。有关更多信息,请参阅 UpgradeInProgress。 |
|
RayJob 指标#
指标名称 |
类型 |
描述 |
标签 |
|---|---|---|---|
|
Gauge |
有关 RayJob 自定义资源的元数据信息。 |
|
|
Gauge |
RayJob 的当前部署状态。 |
|
|
Gauge |
RayJob CR 的 JobDeploymentStatus 从 |
|