Ray Train 用户指南# 数据加载和预处理 快速入门 从 PyTorch 数据开始 拆分数据集 随机洗牌 启用可复现性 预处理结构化数据 性能提示 配置规模和 GPU 增加 worker 数量 使用 GPU 设置每个 worker 的资源 (已弃用) Trainer 资源 本地模式 什么是本地模式? 如何启用本地模式 何时使用本地模式 单进程本地模式 使用 torchrun 进行多进程本地模式 从本地模式迁移到分布式训练 限制和 API 差异 配置持久化存储 云存储(AWS S3, Google Cloud Storage) 共享文件系统(NFS, HDFS) 本地存储 自定义存储 Ray Train 输出概述 高级配置 已弃用 监控和记录指标 如何从不同 worker 获取和聚合结果? (已弃用) 报告游离指标 保存和加载检查点 训练期间保存检查点 检查点上传模式 配置检查点 训练期间使用检查点 训练后使用检查点 从检查点恢复训练状态 异步验证检查点 教程 编写分布式验证函数 检查点指标生命周期 实验跟踪 入门 示例 常见错误 检查训练结果 查看指标 检索检查点 访问存储位置 捕获错误 在持久存储上查找结果 处理故障和节点抢占 Worker 进程和节点容错 Job Driver 容错 容错 API 弃用 Ray Train 指标 可重现性 超参数优化 快速入门 Ray Tune 提供什么? 配置多个 trial 的资源 报告指标和检查点 Tuner(trainer) API 弃用 高级:扩展昂贵的 collate 函数 将 collate 函数移至 Ray Data 创建在 Ray Data 中运行的自定义 collate 函数 确保批次大小对齐 整合 高级:处理自定义数据类型