Ray Data 与其他系统的比较 — Ray 2.46.0

PyTorch Dataset 和 DataLoader

框架无关： Datasets 是框架无关的，并且可以在不同的分布式训练框架之间移植，而 Torch datasets 特定于 Torch。
没有内置 I/O 层： Torch datasets 没有用于常见文件格式或与其他框架进行内存交换的 I/O 层；用户需要引入其他库并自行实现这种集成。
通用分布式数据处理： Datasets 更通用：它可以处理通用的分布式操作，包括全局每 epoch 混洗，否则必须通过组合两个独立的系统来实现。对于除了基于批量预处理之外的任何更复杂的操作，Torch datasets 都需要这种组合，并且不原生支持跨 worker 分片混洗；只支持文件交错。请参阅我们的博客文章，了解为什么这种共享基础设施对于第三代 ML 架构很重要。
较低开销： Datasets 开销较低：它支持进程之间的零拷贝交换，这与基于多进程的 Torch datasets 流水线形成对比。

TensorFlow Dataset

框架无关： Datasets 是框架无关的，并且可以在不同的分布式训练框架之间移植，而 TensorFlow datasets 特定于 TensorFlow。
统一单节点和分布式： Datasets 在同一抽象下统一了单节点和多节点训练。TensorFlow datasets 为分布式数据加载提供了独立的概念，并阻止代码无缝扩展到更大的集群。
通用分布式数据处理： Datasets 更通用：它可以处理通用的分布式操作，包括全局每 epoch 混洗，否则必须通过组合两个独立的系统来实现。对于除了基本预处理之外的任何更复杂的操作，TensorFlow datasets 都需要这种组合，并且不原生支持跨 worker 分片的完全混洗；只支持文件交错。请参阅我们的博客文章，了解为什么这种共享基础设施对于第三代 ML 架构很重要。
较低开销： Datasets 开销较低：它支持进程之间的零拷贝交换，这与基于多进程的 TensorFlow datasets 流水线形成对比。

Petastorm

NVTabular

Ray Data 与其他系统的比较#