Ray 生态系统#

本页按字母顺序列出了与 Ray 集成以实现分布式执行的库。将您自己的集成添加到此列表非常容易。只需提交一个包含几行文本的拉取请求即可,有关更多信息,请参阅下面的下拉菜单。

添加您的集成

要添加集成,请在此文件中添加一个条目,使用与其他示例相同的 grid-item-card 指令。

../_images/airflow_logo_full.png
https://img.shields.io/github/stars/astronomer/astro-provider-ray?style=social)]

Apache Airflow® 是一个开源平台,使用户能够通过有向无环图 (DAG) 以编程方式编写、调度和监控工作流。借助 Ray provider,用户可以无缝地在 Airflow DAG 中编排 Ray 作业。

../_images/buildflow.png
https://img.shields.io/github/stars/launchflow/buildflow?style=social)]

BuildFlow 是一个后端框架,允许您使用纯 Python 构建和管理复杂的云基础设施。借助 BuildFlow 的装饰器模式,您可以将任何函数转换为后端系统的组件。

../_images/classyvision.png
https://img.shields.io/github/stars/facebookresearch/ClassyVision?style=social)]

Classy Vision 是一个新的端到端、基于 PyTorch 的框架,用于大规模训练最先进的图像和视频分类模型。该库采用模块化、灵活的设计,允许任何人使用非常简单的抽象在 PyTorch 之上训练机器学习模型。

../_images/daft.webp
https://img.shields.io/github/stars/daft/daft?style=social)]

Daft 是一个数据引擎,原生支持在您的 Ray 集群上使用 SQL 和 Python DataFrame 进行数据处理和分析。

../_images/dask.png
https://img.shields.io/github/stars/dask/dask?style=social)]

Dask 为分析提供了先进的并行性,为您喜爱的工具实现了规模化性能。Dask 使用现有的 Python API 和数据结构,使得在 Numpy、Pandas、Scikit-learn 及其基于 Dask 的等效工具之间切换变得容易。

../_images/data_juicer.png
https://img.shields.io/github/stars/modelscope/data-juicer?style=social)]

Data-Juicer 是一个一站式多模态数据处理系统,旨在使数据质量更高、更易用、更易于基础模型消化。它与 Ray 集成,用于在大型数据集上进行分布式数据处理,拥有超过 100 个多模态运算符,并支持 TB 级数据集去重。

../_images/flambe.png
https://img.shields.io/github/stars/asappresearch/flambe?style=social)]

Flambé 是一个机器学习实验框架,旨在加速整个研究生命周期。Flambé 的主要目标是提供一个统一的界面,用于原型化模型、运行包含复杂流水线的实验、实时监控这些实验、报告结果以及部署最终模型进行推理。

../_images/flowdapt.png
https://img.shields.io/github/stars/emergentmethods/flowdapt?style=social)]

Flowdapt 是一个旨在帮助开发者配置、调试、调度、触发、部署和服务大规模自适应和响应式人工智能工作流的平台。

../_images/flyte.png
https://img.shields.io/github/stars/flyteorg/flyte?style=social)]

Flyte 是一个 Kubernetes 原生的工作流自动化平台,用于大规模复杂的关键数据和 ML 流程。它在 Lyft、Spotify、Freenome 等公司经过实战检验,并且是真正的开源平台。

../_images/horovod.png
https://img.shields.io/github/stars/horovod/horovod?style=social)]

Horovod 是一个用于 TensorFlow、Keras、PyTorch 和 Apache MXNet 的分布式深度学习训练框架。Horovod 的目标是使分布式深度学习变得快速且易于使用。

../_images/hugging.png
https://img.shields.io/github/stars/huggingface/transformers?style=social)]

用于 Pytorch 和 TensorFlow 2.0 的最先进自然语言处理。它与 Ray 集成,用于 transformer 模型的分布式超参数调优。

../_images/zoo.png
https://img.shields.io/github/stars/intel-analytics/analytics-zoo?style=social)]

Analytics Zoo 无缝地将 TensorFlow、Keras 和 PyTorch 扩展到分布式大数据(使用 Spark、Flink 和 Ray)。

../_images/nlu.png
https://img.shields.io/github/stars/JohnSnowLabs/nlu?style=social)]

通过一行 Python 代码即可获得 46 种语言中 350+ 预训练 NLP 模型、100+ 词嵌入、50+ 句子嵌入和 50+ 分类器的强大功能。

../_images/ludwig.png
https://img.shields.io/github/stars/ludwig-ai/ludwig?style=social)]

Ludwig 是一个工具箱,允许用户无需编写代码即可训练和测试深度学习模型。使用 Ludwig,您无需编写任何代码即可在 Ray 上训练深度学习模型,它会自动利用 Ray 上的 Dask 进行数据预处理,利用 Ray 上的 Horovod 进行分布式训练,以及利用 Ray Tune 进行超参数优化。

../_images/mars.png
https://img.shields.io/github/stars/mars-project/mars?style=social)]

Mars 是一个基于张量的统一框架,用于大规模数据计算,可扩展 Numpy、Pandas 和 Scikit-learn。Mars 可以扩展到单机,也可以扩展到包含数千台机器的集群。

../_images/modin.png
https://img.shields.io/github/stars/modin-project/modin?style=social)]

通过更改一行代码来扩展您的 pandas 工作流。Modin 透明地分发数据和计算,因此您只需像安装 Modin 之前一样继续使用 pandas API 即可。

../_images/prefect.png
https://img.shields.io/github/stars/PrefectHQ/prefect-ray?style=social)]

Prefect 是一个开源的 Python 工作流编排平台。它允许您轻松地用 Python 定义、追踪和调度工作流。此集成使得在 Ray 集群上以分布式方式运行 Prefect 工作流变得容易。

../_images/pycaret.png
https://img.shields.io/github/stars/pycaret/pycaret?style=social)]

PyCaret 是一个开源的 Python 低代码机器学习库,旨在缩短 ML 实验中的假设到洞察周期时间。它使数据科学家能够快速高效地执行端到端实验。

../_images/intel.png
https://img.shields.io/github/stars/Intel-bigdata/oap-raydp?style=social)]

RayDP(“Spark on Ray”)使您可以轻松地在 Ray 程序中使用 Spark。您可以使用 Spark 读取输入数据,使用 SQL、Spark DataFrame 或 Pandas(通过 Koalas)API 处理数据,使用 Spark MLLib 提取和转换特征,并使用 RayDP Estimator API 对预处理的数据集进行分布式训练。

../_images/scikit.png
https://img.shields.io/github/stars/scikit-learn/scikit-learn?style=social)]

Scikit-learn 是一个用于 Python 编程语言的免费软件机器学习库。它包含各种分类、回归和聚类算法,包括支持向量机、随机森林、梯度提升、k-means 和 DBSCAN,并且设计用于与 Python 的数值和科学计算库 NumPy 和 SciPy 协同工作。

../_images/seldon.png
https://img.shields.io/github/stars/SeldonIO/alibi?style=social)]

Alibi 是一个开源的 Python 库,旨在进行机器学习模型的检查和解释。该库的重点是为分类和回归模型提供高质量的黑盒、白盒、局部和全局解释方法的实现。

../_images/sematic.png
https://img.shields.io/github/stars/sematic-ai/sematic?style=social)]

Sematic 是一个用 Python 编写的开源 ML 流水线工具。它使用户能够编写端到端流水线,可以在笔记本电脑和云之间无缝切换,并具有丰富的可视化、可追溯性、可复现性和易用性等一流特性。此集成可在 Sematic 流水线中动态分配 Ray 集群。

../_images/spacy.png
https://img.shields.io/github/stars/explosion/spacy-ray?style=social)]

spaCy 是一个用于 Python 和 Cython 的高级自然语言处理库。它基于最新的研究构建,并且从一开始就设计用于实际产品。

../_images/xgboost_logo.png
https://img.shields.io/github/stars/ray-project/xgboost_ray?style=social)]

XGBoost 是一个流行的梯度提升库,用于分类和回归。它是数据科学中最受欢迎的工具之一,也是许多顶级 Kaggle kernel 的主力工具。

../_images/lightgbm_logo.png
https://img.shields.io/github/stars/ray-project/lightgbm_ray?style=social)]

LightGBM 是一个高性能的梯度提升库,用于分类和回归。它被设计为分布式且高效。

../_images/volcano.png
https://img.shields.io/github/stars/volcano-sh/volcano?style=social)]

Volcano 是一个用于在 Kubernetes 上运行高性能工作负载的系统。它具有 ML 和其他数据密集型工作负载所需的强大批处理调度功能。