Ray Train:可扩展的模型训练#

Ray Train 是一个可扩展的机器学习库,用于分布式训练和微调。

Ray Train 允许您将模型训练代码从单台机器扩展到云中的机器集群,并抽象化分布式计算的复杂性。无论您拥有大型模型还是大型数据集,Ray Train 都是分布式训练最简单的解决方案。

Ray Train 提供对多种框架的支持

PyTorch 生态系统

更多框架

PyTorch

TensorFlow

PyTorch Lightning

Keras

Hugging Face Transformers

Horovod

Hugging Face Accelerate

XGBoost

DeepSpeed

LightGBM

安装 Ray Train#

要安装 Ray Train,请运行

$ pip install -U "ray[train]"

要了解有关安装 Ray 及其库的更多信息,请参阅 安装 Ray

入门#

概述

了解 Ray Train 分布式训练的关键概念。

PyTorch

开始使用 Ray Train 和 PyTorch 进行分布式模型训练。

PyTorch Lightning

开始使用 Ray Train 和 Lightning 进行分布式模型训练。

Hugging Face Transformers

开始使用 Ray Train 和 Transformers 进行分布式模型训练。

了解更多#

更多框架

没看到您使用的框架?请参阅这些指南。

用户指南

获取使用 Ray Train 进行常见训练任务的操作说明。

示例

浏览不同用例的端到端代码示例。

API

查阅 API 参考手册,获取 Ray Train API 的完整说明。