Ray Train 用户指南# 数据加载和预处理 快速入门 从 PyTorch 数据开始 分割数据集 随机混洗 实现可复现性 预处理结构化数据 性能技巧 配置扩展规模和 GPU 增加 Worker 数量 使用 GPU 设置每个 Worker 的资源 (已弃用) Trainer 资源 配置持久存储 云存储 (AWS S3, Google Cloud Storage) 共享文件系统 (NFS, HDFS) 本地存储 自定义存储 Ray Train 输出概览 高级配置 已弃用 监控和日志记录指标 如何获取和聚合不同 Worker 的结果? (已弃用) 报告自由浮动指标 保存和加载检查点 训练期间保存检查点 配置检查点 训练后使用检查点 从检查点恢复训练状态 实验跟踪 入门 示例 常见错误 检查训练结果 查看指标 检索检查点 访问存储位置 查看错误 在持久存储上查找结果 处理故障和节点抢占 Worker 进程和节点容错 Job Driver 容错 容错 API 弃用 可复现性 超参数优化 快速入门 Ray Tune 提供什么? 为多个 Trial 配置资源 报告指标和检查点 Tuner(trainer) API 弃用