调试挂起#
在 Ray Dashboard 中查看堆栈跟踪#
通过点击“CPU 分析”或“堆栈跟踪”操作,Ray dashboard 可让您分析 Ray Driver 或 Worker 进程(针对活动的 Worker 进程、任务、Actor 和作业的驱动程序进程)。
点击“堆栈跟踪”将使用 py-spy 返回当前的堆栈跟踪样本。默认情况下,仅显示 Python 堆栈跟踪。要显示本机代码帧,请设置 URL 参数 native=1(仅在 Linux 上支持)。
注意
在使用 docker 容器中的 py-spy 时,您可能会遇到权限错误。要解决此问题:
如果您在 Docker 容器中手动启动 Ray,请遵循 py-spy 文档来解决。
如果您是 KubeRay 用户,请遵循配置 KubeRay 的指南来解决。
注意
以下错误是条件性的,不是 Python 程序失败的信号。
如果您看到“No such file or direction”,请检查您的 worker 进程是否已退出。
如果您看到“No stack counts found”,请检查您的 worker 进程是否处于睡眠状态,在最后 5 秒内没有活动。
使用 ray stack CLI 命令#
安装 py-spy 后(如果 安装 Ray 时包含“Ray Dashboard”组件,则会自动安装),您可以运行 ray stack 来转储当前节点上所有 Ray Worker 进程的堆栈跟踪。
本文档讨论了人们在使用 Ray 时遇到的一些常见问题以及一些已知问题。如果您遇到其他问题,请告知我们。