Ray 生态系统#

本页按字母顺序列出了与 Ray 集成以实现分布式执行的库。将您自己的集成添加到此列表非常容易。只需提交一个包含几行文本的拉取请求即可，有关更多信息，请参阅下面的下拉菜单。

https://img.shields.io/github/stars/astronomer/astro-provider-ray?style=social)]

Apache Airflow® 是一个开源平台，使用户能够通过有向无环图 (DAG) 以编程方式编写、调度和监控工作流。借助 Ray provider，用户可以无缝地在 Airflow DAG 中编排 Ray 作业。

Apache Airflow 集成

https://img.shields.io/github/stars/launchflow/buildflow?style=social)]

BuildFlow 是一个后端框架，允许您使用纯 Python 构建和管理复杂的云基础设施。借助 BuildFlow 的装饰器模式，您可以将任何函数转换为后端系统的组件。

BuildFlow 集成

https://img.shields.io/github/stars/facebookresearch/ClassyVision?style=social)]

Classy Vision 是一个新的端到端、基于 PyTorch 的框架，用于大规模训练最先进的图像和视频分类模型。该库采用模块化、灵活的设计，允许任何人使用非常简单的抽象在 PyTorch 之上训练机器学习模型。

Classy Vision 集成

https://img.shields.io/github/stars/daft/daft?style=social)]

Daft 是一个数据引擎，原生支持在您的 Ray 集群上使用 SQL 和 Python DataFrame 进行数据处理和分析。

Daft 集成

https://img.shields.io/github/stars/dask/dask?style=social)]

Dask 为分析提供了先进的并行性，为您喜爱的工具实现了规模化性能。Dask 使用现有的 Python API 和数据结构，使得在 Numpy、Pandas、Scikit-learn 及其基于 Dask 的等效工具之间切换变得容易。

Dask 集成

https://img.shields.io/github/stars/modelscope/data-juicer?style=social)]

Data-Juicer 是一个一站式多模态数据处理系统，旨在使数据质量更高、更易用、更易于基础模型消化。它与 Ray 集成，用于在大型数据集上进行分布式数据处理，拥有超过 100 个多模态运算符，并支持 TB 级数据集去重。

Data-Juicer 集成

https://img.shields.io/github/stars/asappresearch/flambe?style=social)]

Flambé 是一个机器学习实验框架，旨在加速整个研究生命周期。Flambé 的主要目标是提供一个统一的界面，用于原型化模型、运行包含复杂流水线的实验、实时监控这些实验、报告结果以及部署最终模型进行推理。

Flambé 集成

https://img.shields.io/github/stars/emergentmethods/flowdapt?style=social)]

Flowdapt 是一个旨在帮助开发者配置、调试、调度、触发、部署和服务大规模自适应和响应式人工智能工作流的平台。

Flowdapt 集成

https://img.shields.io/github/stars/flyteorg/flyte?style=social)]

Flyte 是一个 Kubernetes 原生的工作流自动化平台，用于大规模复杂的关键数据和 ML 流程。它在 Lyft、Spotify、Freenome 等公司经过实战检验，并且是真正的开源平台。

Flyte 集成

https://img.shields.io/github/stars/horovod/horovod?style=social)]

Horovod 是一个用于 TensorFlow、Keras、PyTorch 和 Apache MXNet 的分布式深度学习训练框架。Horovod 的目标是使分布式深度学习变得快速且易于使用。

Horovod 集成

https://img.shields.io/github/stars/huggingface/transformers?style=social)]

用于 Pytorch 和 TensorFlow 2.0 的最先进自然语言处理。它与 Ray 集成，用于 transformer 模型的分布式超参数调优。

Hugging Face Transformers 集成

https://img.shields.io/github/stars/intel-analytics/analytics-zoo?style=social)]

Analytics Zoo 无缝地将 TensorFlow、Keras 和 PyTorch 扩展到分布式大数据（使用 Spark、Flink 和 Ray）。

Intel Analytics Zoo 集成

https://img.shields.io/github/stars/JohnSnowLabs/nlu?style=social)]

通过一行 Python 代码即可获得 46 种语言中 350+ 预训练 NLP 模型、100+ 词嵌入、50+ 句子嵌入和 50+ 分类器的强大功能。

NLU 集成

https://img.shields.io/github/stars/ludwig-ai/ludwig?style=social)]

Ludwig 是一个工具箱，允许用户无需编写代码即可训练和测试深度学习模型。使用 Ludwig，您无需编写任何代码即可在 Ray 上训练深度学习模型，它会自动利用 Ray 上的 Dask 进行数据预处理，利用 Ray 上的 Horovod 进行分布式训练，以及利用 Ray Tune 进行超参数优化。

Ludwig 集成

https://img.shields.io/github/stars/mars-project/mars?style=social)]

Mars 是一个基于张量的统一框架，用于大规模数据计算，可扩展 Numpy、Pandas 和 Scikit-learn。Mars 可以扩展到单机，也可以扩展到包含数千台机器的集群。

MARS 集成

https://img.shields.io/github/stars/modin-project/modin?style=social)]

通过更改一行代码来扩展您的 pandas 工作流。Modin 透明地分发数据和计算，因此您只需像安装 Modin 之前一样继续使用 pandas API 即可。

Modin 集成

https://img.shields.io/github/stars/PrefectHQ/prefect-ray?style=social)]

Prefect 是一个开源的 Python 工作流编排平台。它允许您轻松地用 Python 定义、追踪和调度工作流。此集成使得在 Ray 集群上以分布式方式运行 Prefect 工作流变得容易。

Prefect 集成

https://img.shields.io/github/stars/pycaret/pycaret?style=social)]

PyCaret 是一个开源的 Python 低代码机器学习库，旨在缩短 ML 实验中的假设到洞察周期时间。它使数据科学家能够快速高效地执行端到端实验。

PyCaret 集成

https://img.shields.io/github/stars/Intel-bigdata/oap-raydp?style=social)]

RayDP（“Spark on Ray”）使您可以轻松地在 Ray 程序中使用 Spark。您可以使用 Spark 读取输入数据，使用 SQL、Spark DataFrame 或 Pandas（通过 Koalas）API 处理数据，使用 Spark MLLib 提取和转换特征，并使用 RayDP Estimator API 对预处理的数据集进行分布式训练。

RayDP 集成