用户指南# 如果您是 Ray Data 的新手,请从 Ray Data Quickstart 开始。本用户指南将帮助您了解 Ray Data 项目,并向您展示如何完成多项任务。 加载数据 读取文件 从其他库加载数据 读取数据库 从 Kafka 读取 创建合成数据 加载其他数据源 性能考量 检查数据 描述数据集 检查行 检查批次 检查执行统计信息 转换数据 转换行 转换批次 行的顺序 有状态的转换 避免内存不足错误 按组分组并转换组 聚合数据 基本聚合 自定义聚合 迭代数据 迭代行 迭代批次 带随机播放的迭代批次 分割数据集以进行分布式并行训练 连接数据 配置连接 配置分区数 配置聚合器数 混洗数据 随机播放的类型 高级:优化随机播放 保存数据 将数据写入文件 将数据集转换为其他 Python 库 处理图像 读取图像 转换图像 对图像执行推理 保存图像 处理文本 读取文本文件 转换文本 对文本执行推理 保存文本 处理张量/NumPy 张量数据表示 转换张量数据 保存张量数据 处理 PyTorch 迭代 Torch 张量进行训练 使用 Torch 张量进行转换 使用 PyTorch 进行批次推理 保存包含 Torch 张量的数据集 从 PyTorch 数据集和数据加载器迁移 处理 LLMs 快速入门:vLLM 批次推理 对 LLM 执行批次推理 配置 vLLM 进行 LLM 推理 使用视觉语言模型 (VLM) 进行批次推理 使用嵌入模型进行批次推理 使用兼容 OpenAI 的端点进行批次推理 使用 serve 部署进行批次推理 跨节点并行 使用数据收集 常见问题解答 (FAQs) 监控您的工作负载 Ray Data 进度条 Ray Data 控制面板 Ray Data 日志 Ray Data 统计信息 执行配置 配置 ExecutionOptions 配置 DataContext 端到端:离线批量推理 快速入门 配置和故障排除 高级:性能技巧和调优 优化转换 优化读取 减少内存使用 配置执行 可重现性 高级:读写自定义文件类型 从文件读取数据 将数据写入文件