可扩展视频处理#
本教程构建了一个端到端的面罩检测管道,该管道利用了分布式微调、大规模批量推理、视频分析和可扩展服务。
1.object_detection_train.ipynb
使用 Ray Train 在 Pascal Visual Object Classes (VOC) 格式的面罩数据集上微调预训练的 Faster R-CNN 模型。使用 Ray Data 解析 XML 注释,从 S3 获取图像,运行分布式训练循环,对模型进行检查点,并可视化推理结果。

2.object_detection_batch_inference_eval.ipynb
将微调后的模型从 S3 加载到 Anyscale 集群存储中,使用 Ray Data 对测试集执行 GPU 加速的批量推理,并使用 TorchMetrics 计算对象检测指标(mAP、IoU、召回率)以进行全面的模型评估。

3.video_processing_batch_inference.ipynb
演示了一个真实的视频分析工作流程:从 S3 读取视频,将其分解为帧,使用 Ray Data 批量推理并行应用检测模型,在每一帧上绘制边界框和标签,并重新生成一个用于下游消费的带注释视频。

4.object_detection_serve.ipynb
使用 Ray Serve 和 FastAPI 将训练好的 Faster R-CNN 面罩检测器部署为生产就绪的微服务。设置入口,配置自动缩放和分数 GPU 分配,测试 HTTP 端点,并管理本地和通过 Anyscale Services 的服务生命周期。