Ray 生态系统#

此页面按字母顺序列出了与 Ray 集成的库,用于分布式执行。您可以轻松地将自己的集成添加到此列表中。只需通过一个包含几行文本的拉取请求即可,有关更多信息,请参阅下方的下拉菜单。

添加您的集成

要添加集成,请在此文件中添加一个条目,使用与其他示例相同的 grid-item-card 指令。

../_images/rayai_logo.png
https://img.shields.io/github/stars/rayai-labs/agentic-ray?style=social)]

Agentic-Ray 使任何框架构建的代理能够使用 Ray 作为其运行时,在集群中分发工具调用,并提供用于执行 AI 生成代码的沙箱环境。

../_images/airflow_logo_full.png
https://img.shields.io/github/stars/astronomer/astro-provider-ray?style=social

Apache Airflow® 是一个开源平台,它使用户能够通过编程方式使用有向无环图 (DAG) 来编写、调度和监控工作流。通过 Ray Provider,用户可以在 Airflow DAG 中无缝地编排 Ray 作业。

../_images/buildflow.png
https://img.shields.io/github/stars/launchflow/buildflow?style=social

BuildFlow 是一个后端框架,允许您使用纯 Python 构建和管理复杂的云基础设施。通过 BuildFlow 的装饰器模式,您可以将任何函数转换为后端系统的组件。

../_images/classyvision.png
https://img.shields.io/github/stars/facebookresearch/ClassyVision?style=social

Classy Vision 是一个新颖的、基于 PyTorch 的端到端框架,用于大规模训练最先进的图像和视频分类模型。该库具有模块化、灵活的设计,允许任何人使用非常简单的抽象在 PyTorch 之上训练机器学习模型。

../_images/daft.png
https://img.shields.io/github/stars/Eventual-Inc/Daft?style=social

Daft 是一个高性能的多模态数据引擎,为任何模态提供简单可靠的数据处理,从结构化表格到图像、音频、视频和嵌入。Daft 采用 Python 和 Rust 构建,适用于现代 AI 工作流,提供从本地到 分布式集群 的无缝扩展,从而能够大规模高效地进行批处理推理、文档处理和多模态 ETL 管道。

../_images/dask.png
https://img.shields.io/github/stars/dask/dask?style=social

Dask 为分析提供高级并行性,使您喜爱的工具能够大规模运行。Dask 使用现有的 Python API 和数据结构,可以轻松地在 Numpy、Pandas、Scikit-learn 与其 Dask 驱动的对应项之间切换。

../_images/data_juicer.png
https://img.shields.io/github/stars/modelscope/data-juicer?style=social

Data-Juicer 是一个一站式多模态数据处理系统,旨在使基础模型的数据质量更高、更易于理解。它与 Ray 集成,用于对大规模数据集进行分布式数据处理,提供超过 100 种多模态运算符,并支持 TB 级数据集去重。

../_images/flambe.png
https://img.shields.io/github/stars/asappresearch/flambe?style=social

Flambé 是一个机器学习实验框架,旨在加速整个研究生命周期。Flambé 的主要目标是提供一个统一的接口,用于原型设计模型、运行包含复杂管道的实验、实时监控这些实验、报告结果以及部署最终模型进行推理。

../_images/flowdapt.png
https://img.shields.io/github/stars/emergentmethods/flowdapt?style=social

Flowdapt 是一个平台,旨在帮助开发人员大规模地配置、调试、调度、触发、部署和提供自适应和响应式人工智能工作流。

../_images/flyte.png
https://img.shields.io/github/stars/flyteorg/flyte?style=social

Flyte 是一个 Kubernetes 原生工作流自动化平台,用于大规模构建复杂、关键任务的数据和 ML 流程。它已在 Lyft、Spotify、Freenome 等公司经过实战检验,并且是真正开源的。

../_images/horovod.png
https://img.shields.io/github/stars/horovod/horovod?style=social

Horovod 是一个用于 TensorFlow、Keras、PyTorch 和 Apache MXNet 的分布式深度学习训练框架。Horovod 的目标是让分布式深度学习快速易用。

../_images/hugging.png
https://img.shields.io/github/stars/huggingface/transformers?style=social

为 Pytorch 和 TensorFlow 2.0 提供最先进的自然语言处理。它与 Ray 集成,用于对 Transformer 模型进行分布式超参数调优。

../_images/zoo.png
https://img.shields.io/github/stars/intel-analytics/analytics-zoo?style=social

Analytics Zoo 可将 TensorFlow、Keras 和 PyTorch 无缝扩展到分布式大数据(使用 Spark、Flink 和 Ray)。

../_images/nlu.png
https://img.shields.io/github/stars/JohnSnowLabs/nlu?style=social

使用 1 行 Python 代码即可获得 350+ 种预训练 NLP 模型、100+ 种词嵌入、50+ 种句子嵌入和 50+ 种分类器的强大功能。

../_images/ludwig.png
https://img.shields.io/github/stars/ludwig-ai/ludwig?style=social

Ludwig 是一个工具箱,允许用户在无需编写代码的情况下训练和测试深度学习模型。使用 Ludwig,您可以零代码训练 Ray 上的深度学习模型,自动利用 Ray 上的 Dask 进行数据预处理,利用 Ray 上的 Horovod 进行分布式训练,并使用 Ray Tune 进行超参数优化。

../_images/mars.png
https://img.shields.io/github/stars/mars-project/mars?style=social

Mars 是一个基于张量的统一框架,用于大规模数据计算,可扩展 Numpy、Pandas 和 Scikit-learn。Mars 可以扩展到单台机器,也可以扩展到由数千台机器组成的集群。

../_images/modin.png
https://img.shields.io/github/stars/modin-project/modin?style=social

只需更改一行代码,即可扩展您的 pandas 工作流。Modin 会透明地分发数据和计算,因此您只需继续像安装 Modin 之前一样使用 pandas API。

../_images/prefect.png
https://img.shields.io/github/stars/PrefectHQ/prefect-ray?style=social

Prefect 是一个 Python 中的开源工作流编排平台。它允许您轻松地在 Python 中定义、跟踪和调度工作流。此集成使在 Ray 集群上以分布式方式运行 Prefect 工作流变得容易。

../_images/pycaret.png
https://img.shields.io/github/stars/pycaret/pycaret?style=social

PyCaret 是一个 Python 中的开源低代码机器学习库,旨在缩短 ML 实验中从假设到洞察的周期。它使数据科学家能够快速高效地执行端到端实验。

../_images/intel.png
https://img.shields.io/github/stars/Intel-bigdata/oap-raydp?style=social

RayDP(“Spark on Ray”)使您能够在 Ray 程序中轻松使用 Spark。您可以使用 Spark 读取输入数据,使用 SQL、Spark DataFrame 或 Pandas(通过 Koalas)API 处理数据,使用 Spark MLLib 提取和转换特征,并使用 RayDP Estimator API 对预处理后的数据集进行分布式训练。

../_images/raylight.png
https://img.shields.io/github/stars/komikndr/raylight?style=social)]

Raylight 是 ComfyUI 的一个扩展,它使用 XDiT XFuser 和由 Ray 管理的 FSDP 来实现真正的多 GPU 功能。它旨在高效地扩展多个 GPU 上的扩散模型。Raylight 提供序列并行和优化的 VRAM 利用率,使其成为大型视频和图像生成模型的理想选择。

../_images/scikit.png
https://img.shields.io/github/stars/scikit-learn/scikit-learn?style=social

Scikit-learn 是一个免费的机器学习软件库,用于 Python 编程语言。它包含各种分类、回归和聚类算法,包括支持向量机、随机森林、梯度提升、k-means 和 DBSCAN,并且设计用于与 Python 的 NumPy 和 SciPy 数值和科学库进行互操作。

../_images/seldon.png
https://img.shields.io/github/stars/SeldonIO/alibi?style=social

Alibi 是一个开源的 Python 库,旨在进行机器学习模型的检查和解释。该库专注于为分类和回归模型提供高质量的黑盒、白盒、局部和全局解释方法的实现。

../_images/sematic.png
https://img.shields.io/github/stars/sematic-ai/sematic?style=social

Sematic 是一个用 Python 编写的开源 ML 流水线工具。它使用户能够编写端到端的流水线,这些流水线可以无缝地在笔记本电脑和云之间过渡,并提供丰富的可视化、可追溯性、可重复性和可用性作为一等公民。此集成使得在 Sematic 流水线中动态分配 Ray 集群成为可能。

../_images/spacy.png
https://img.shields.io/github/stars/explosion/spacy-ray?style=social

spaCy 是一个用于 Python 和 Cython 的高级自然语言处理库。它基于最新的研究成果,并且从一开始就旨在实际产品中使用。

../_images/xgboost_logo.png
https://img.shields.io/github/stars/ray-project/xgboost_ray?style=social

XGBoost 是一个流行的分类和回归梯度提升库。它是数据科学中最受欢迎的工具之一,也是许多顶级 Kaggle 内核的基石。

../_images/lightgbm_logo.png
https://img.shields.io/github/stars/ray-project/lightgbm_ray?style=social

LightGBM 是一个高性能的分类和回归梯度提升库。它被设计为分布式和高效的。

../_images/volcano.png
https://img.shields.io/github/stars/volcano-sh/volcano?style=social

Volcano 是一个在 Kubernetes 上运行高性能工作系统的系统。它具有 ML 和其他数据密集型工作负载所需的强大批量调度功能。