Ray Train:可扩展的模型训练#

Ray Train 是一个用于分布式训练和微调的可扩展机器学习库。

Ray Train 允许您将模型训练代码从单台机器扩展到云端的多台机器集群,并抽象化分布式计算的复杂性。无论您拥有大型模型还是大型数据集,Ray Train 都是分布式训练的最简单解决方案。

Ray Train 支持许多框架

PyTorch 生态系统

更多框架

PyTorch

TensorFlow

PyTorch Lightning

Keras

Hugging Face Transformers

Horovod

Hugging Face Accelerate

XGBoost

DeepSpeed

LightGBM

安装 Ray Train#

要安装 Ray Train,请运行

$ pip install -U "ray[train]"

要了解有关安装 Ray 及其库的更多信息,请参阅 安装 Ray

入门#

概述

了解 Ray Train 分布式训练的关键概念。

PyTorch

开始使用 Ray Train 和 PyTorch 进行分布式模型训练。

PyTorch Lightning

开始使用 Ray Train 和 Lightning 进行分布式模型训练。

Hugging Face Transformers

开始使用 Ray Train 和 Transformers 进行分布式模型训练。

JAX

开始使用 Ray Train 和 JAX 进行分布式模型训练。

了解更多#

更多框架

看不到您的框架?请参阅这些指南。

用户指南

获取有关使用 Ray Train 进行常见训练任务的操作说明。

示例

浏览不同用例的端到端代码示例。

API

查阅 API 参考,获取 Ray Train API 的完整描述。