用户指南# 如果您是 Ray Data 的新用户,请从Ray Data 快速入门开始。本用户指南将帮助您了解 Ray Data 项目,并向您展示如何完成多项任务。 加载数据 读取文件 从其他库加载数据 读取数据库 创建合成数据 加载其他数据源 性能注意事项 检查数据 描述数据集 检查行 检查批次 检查执行统计信息 转换数据 转换行 转换批次 行排序 有状态转换 避免内存不足错误 Groupby 并转换组 迭代数据 迭代行 迭代批次 迭代带有混洗的批次 为分布式并行训练分割数据集 混洗数据 混洗类型 高级:优化混洗 保存数据 将数据写入文件 将数据集转换为其他 Python 库 处理图像 读取图像 转换图像 对图像进行推理 保存图像 处理文本 读取文本文件 转换文本 对文本进行推理 保存文本 处理张量 / NumPy 张量数据表示 转换张量数据 保存张量数据 处理 PyTorch 迭代 Torch 张量进行训练 使用 Torch 张量进行转换 使用 PyTorch 进行批量推理 保存包含 Torch 张量的数据集 从 PyTorch Datasets 和 DataLoaders 迁移 处理 LLM 使用 LLM 执行批量推理 为 LLM 推理配置 vLLM 使用兼容 OpenAI 的端点进行批量推理 使用数据收集 生产指南 监控您的工作负载 Ray Data 进度条 Ray Data 面板 Ray Data 日志 Ray Data 统计信息 执行配置 配置 ExecutionOptions 配置 DataContext 端到端:离线批量推理 快速入门 配置和故障排除 高级:性能提示和调优 优化转换 优化读取 减少内存使用 配置执行 可重现性 高级:读写自定义文件类型 从文件读取数据 将数据写入文件