分布式数据加载#

本高级指南演示了如何在 多主机或多进程环境 中运行 JAX 时执行分布式数据加载,以及 JAX 计算所需的数据如何分布在多个进程中。本文档涵盖了如何考虑分布式数据加载的总体方法,以及如何将其应用于数据并行(更简单)和模型并行(更复杂)的工作负载。

与以下替代方案相比,分布式数据加载通常更高效(数据分布在多个进程中),但也更复杂:1)在单个进程中加载完整的全局数据,将其拆分并通过 RPC 将所需的部分发送到其他进程;以及 2)在所有进程中加载完整的全局数据,并且仅在每个进程中使用所需的部分。加载完整的全局数据通常更简单,但成本更高。例如,在机器学习中,训练循环可能会在等待数据时被阻塞,并且每个进程会使用额外的网络带宽。

注意

当使用分布式数据加载时,重要的是每个设备(例如,每个 GPU 或 TPU)都能够访问其运行计算所需的输入数据分片。这通常使得分布式数据加载的实现比上述替代方案更复杂且更具挑战性。如果错误的数据分片最终出现在错误的设备上,计算仍然可以运行而不会出错,因为计算无法知道输入数据“应该”是什么。然而,最终结果通常是不正确的,因为输入数据与预期不同。

加载 jax.Array 的通用方法#

考虑从不是由 JAX 生成的原始数据创建单个 jax.Array 的情况。这些概念适用于加载批处理数据记录之外的情况,例如任何非由 JAX 计算直接生成的多进程 jax.Array。例如包括:1)从检查点加载模型权重;或者 2)加载大型空间分片图像。

每个 jax.Array 都有一个关联的 Sharding,它描述了每个全局设备需要全局数据的哪个分片。当你从头开始创建 jax.Array 时,还需要创建它的 Sharding。这就是 JAX 如何理解数据在设备上的布局方式。您可以创建任何您想要的 Sharding。在实践中,您通常会根据您正在实施的并行策略类型选择一个 Sharding(您将在本指南的后面详细了解数据和模型并行)。您还可以根据每个进程中将如何生成原始数据来选择 Sharding

定义 Sharding 后,可以使用 addressable_devices() 来提供当前进程中加载数据所需的设备列表。(注意:术语“可寻址设备”是“本地设备”的更通用版本。目标是确保每个进程的数据加载器都为该进程的所有本地设备提供正确的数据。

示例#

例如,考虑一个需要跨 4 个进程(每个进程 2 个设备,共 8 个设备)进行分片的 (64, 128) jax.Array。这将产生 8 个唯一的数据分片,每个设备一个。有很多方法可以分片这个 jax.Array。您可以对 jax.Array 的第二个维度执行 1D 分片,为每个设备提供一个 (64, 16) 分片,如下所示

8 unique data shards

在上图中,每个数据分片都有其自己的颜色,以指示哪个进程需要加载该分片。例如,假设进程 0 的 2 个设备包含分片 AB,对应于全局数据的第一个 (64, 32) 部分。

您可以选择不同的分片到设备的分发。例如

8 unique data shards - different distribution

这是另一个示例 - 2D 分片

2D sharding

无论 jax.Array 如何进行分片,您都必须确保每个进程的数据加载器都提供/加载全局数据所需的(多个)分片。有几种实现此目的的高级方法:1)在每个进程中加载全局数据;2)使用每个设备的数据管道;3)使用整合的每个进程的数据管道;4)以某种方便的方式加载数据,然后在计算内部重新分片。

选项 1:在每个进程中加载全局数据#

Loading the global data in each process

使用此选项,每个进程

  1. 加载所需的全值;并且

  2. 仅将所需的分片传输到该进程的本地设备。

这不是一种有效的分布式数据加载方法,因为每个进程都会丢弃其本地设备不需要的数据,并且摄取的总数据可能高于必要的数据。但是,此选项有效且相对容易实现,而对于某些工作负载来说,性能开销可能是可以接受的(例如,如果全局数据很小)。

选项 2:使用每个设备的数据管道#

Using a per-device data pipeline

在此选项中,每个进程为其每个本地设备设置一个数据加载器(也就是说,每个设备都有自己的数据加载器,仅用于其所需的数据分片)。

就加载的数据而言,这是高效的。有时,独立考虑每个设备而不是一次考虑一个进程的所有本地设备也可能更简单(请参阅下面的选项 3:使用整合的每个进程的数据管道)。但是,拥有多个并发数据加载器有时可能会导致性能问题。

选项 3:使用整合的每个进程的数据管道#

Using a consolidated per-process data pipeline

如果您选择此选项,则每个进程

  1. 设置一个数据加载器,该加载器加载其所有本地设备所需的数据;然后

  2. 在传输到每个本地设备之前对本地数据进行分片。

这是进行分布式加载的最有效方式。但是,这也是最复杂的方式,因为需要逻辑来找出每个设备需要哪些数据,并创建一个仅加载所有这些数据的单个数据加载(并且理想情况下,不加载任何其他额外数据)。

选项 4:以某种方便的方式加载数据,在计算内部重新分片#

Loading  data in some convenient way, reshard inside computation

这个选项更难解释,但通常比上述选项(从 1 到 3)更容易实现。

想象一下这样一种情况:设置数据加载器来加载您需要的确切数据非常困难或不可能,无论是对于每个设备还是每个进程的加载器。但是,仍然有可能为每个进程设置一个数据加载器,该加载器加载 1 / num_processes 的数据,只是不在正确的分片中。

然后,继续之前 2D 分片的示例,假设每个进程更容易加载单列数据

然后,您可以创建一个具有 Shardingjax.Array,该 Sharding 代表每列数据,将其直接传递到计算中,并使用 jax.lax.with_sharding_constraint() 立即将列分片的输入重新分片到所需的分片。由于数据在计算内部被重新分片,它将在加速器通信链路(例如,TPU ICI 或 NVLink)上被重新分片。

此选项 4 具有与选项 3(使用整合的每个进程的数据管道)相似的优势

  • 每个进程仍然只有一个数据加载器;并且

  • 全局数据在所有进程中仅加载一次;并且

  • 全局数据还有一个额外的好处,即在数据加载方式上提供了更大的灵活性。

然而,这种方法使用加速器互连带宽来执行重新分片,这可能会减慢某些工作负载的速度。选项 4 还要求输入数据除了目标 Sharding 之外,还必须表示为单独的 Sharding

复制#

复制描述的是多个设备拥有相同数据分片的过程。上面提到的一般选项(选项 1 到 4)仍然适用于复制。唯一的区别是一些进程最终可能会加载相同的数据分片。本节介绍完全复制和部分复制。

完全复制#

完全复制是指所有设备都拥有数据的完整副本(即,数据“分片”是整个数组值)的过程。

在下面的示例中,由于总共有 8 个设备(每个进程 2 个),您最终将得到完整数据的 8 个副本。数据的每个副本都是未分片的,也就是说,该副本存在于单个设备上

Full replication

部分复制#

部分复制描述的是存在多个数据副本,并且每个副本都分布在多个设备上的过程。对于给定的数组值,通常有许多可能的方式来执行部分复制(注意:对于给定的数组形状,始终存在一个完全复制的 Sharding)。

以下是两个可能的示例。

在下面的第一个示例中,每个副本都分布在一个进程的两个本地设备上,总共有 4 个副本。这意味着每个进程都需要加载完整的全局数据,因为其本地设备将拥有数据的完整副本。

Partial replication - example 1

在下面的第二个示例中,每个副本仍然分布在两个设备上,但每个设备对分布在两个不同的进程中。进程 0(粉色)和进程 1(黄色)都需要加载数据的第一行,而进程 2(绿色)和进程 3(蓝色)都需要加载数据的第二行

Partial replication - example 2

现在您已经了解了创建 jax.Array 的高级选项,让我们将它们应用于 ML 应用程序的数据加载。

数据并行#

纯数据并行(没有模型并行)中

  • 您在每个设备上复制模型;并且

  • 每个模型副本(即,每个设备)接收不同的每个副本的数据批次。

Data parallelism - example 1

当将输入数据表示为单个 jax.Array 时,该 Array 包含此步骤的所有副本的数据(这称为全局批次),其中 jax.Array 的每个分片都包含单个每个副本的批次。您可以将其表示为跨所有设备的 1D 分片(查看下面的示例)——换句话说,全局批次由沿批次轴连接在一起的所有每个副本的批次组成。

Data parallelism - example 2

应用此框架,您可能会得出结论,进程 0 应获得全局批次的第一个四分之一(8 个中的 2 个),而进程 1 应获得第二个,依此类推。

但是您如何知道第一个四分之一是什么?以及如何确保进程 0 获得第一个四分之一?幸运的是,关于数据并行有一个非常重要的技巧,这意味着您不必回答这些问题,并且使整个设置更简单。

关于数据并行性的重要技巧#

技巧是您不需要关心哪个每个副本的批次落在哪个副本上。因此,哪个进程加载批次并不重要。原因是,由于每个设备都对应一个执行相同操作的模型副本,因此全局批次中哪个设备获得哪个每个副本的批次并不重要。

这意味着您可以自由地在全局批次中重新排列每个副本的批次。换句话说,您可以自由地随机化每个设备获取哪个数据分片。

例如

Data parallelism - example 3

通常,如上所示重新排列 jax.Array 的数据分片不是一个好主意——您实际上是在置换 jax.Array 的值!但是,对于数据并行,全局批次的顺序没有意义,您可以自由地重新排列全局批次中每个副本的批次,如前所述。

这简化了数据加载,因为它意味着每个设备只需要一个独立的每个副本的批次流,这可以通过为每个进程创建一个独立的管道并将生成的每个进程批次分块为每个副本的批次,在大多数数据加载器中轻松实现。

Data parallelism - example 4

这是选项 2:整合的每个进程数据管道的一个实例。您还可以使用其他选项(例如 0、1 和 3,它们在本文档的前面部分进行了介绍),但此选项相对简单且高效。

这是一个使用 tf.data 实现此设置的示例

import jax
import tensorflow as tf
import numpy as np

################################################################################
# Step 1: setup the Dataset for pure data parallelism (do once)
################################################################################
# Fake example data (replace with your Dataset)
ds = tf.data.Dataset.from_tensor_slices(
    [np.ones((16, 3)) * i for i in range(100)])

ds = ds.shard(num_shards=jax.process_count(), index=jax.process_index())

################################################################################
# Step 2: create a jax.Array of per-replica batches from the per-process batch
# produced from the Dataset (repeat every step). This can be used with batches
# produced by different data loaders as well!
################################################################################
# Grab just the first batch from the Dataset for this example
per_process_batch = ds.as_numpy_iterator().next()

mesh = jax.make_mesh((jax.device_count(),), ('batch',))
sharding = jax.NamedSharding(mesh, jax.sharding.PartitionSpec('batch'))
global_batch_array = jax.make_array_from_process_local_data(
    sharding, per_process_batch)

数据 + 模型并行#

模型并行中,您将每个模型副本分布在多个设备上。如果您使用纯模型并行(没有数据并行)

  • 只有一个模型副本分布在所有设备上;并且

  • 数据(通常)完全复制到所有设备上。

本指南考虑的是您同时使用数据并行和模型并行的情况

  • 您将多个模型副本中的每个副本分布在多个设备上;并且

  • 您在每个模型副本上部分复制数据——同一模型副本中的每个设备都获得相同的每个副本的批次,而不同模型副本中的设备获得不同的每个副本的批次。

进程内的模型并行#

为了进行数据加载,最简单的方法是将每个模型副本分布在单个进程的本地设备中。

对于此示例,让我们切换到每个进程 4 个设备(而不是每个进程 2 个设备的 4 个进程)的 2 个进程。考虑一种场景,其中每个模型副本都分布在单个进程的 2 个本地设备上。这会导致每个进程 2 个模型副本,总共 4 个模型副本,如下所示

Data and model parallelism - example 1

在这里,再次将输入数据表示为单个 jax.Array,其中 1D 分片的每个分片是一个每个副本的批次,但有一个例外

  • 与纯数据并行的情况不同,您引入了部分复制并创建了 1D 分片的全局批次的 2 个副本。

  • 这是因为每个模型副本都由 2 个设备组成,每个设备都需要一个每个副本的批次副本。

Data and model parallelism - example 2

将每个模型副本保留在单个进程中可以使事情更简单,因为您可以重用上面描述的纯数据并行设置,只是您还需要复制每个副本的批次

Data and model parallelism - example 3

注意

将每个副本的批次复制到正确的设备也非常重要!虽然关于数据并行性的非常重要的技巧意味着您不关心哪个批次最终落在哪个副本上,但您确实关心单个副本只获得一个批次

例如,这是可以的

Data and model parallelism - example 4

但是,如果您不小心将每个批次加载到哪个本地设备上,您可能会意外创建未复制的数据,即使 Sharding(和并行策略)表示数据已复制

Data and model parallelism - example 4

如果您意外创建了一个 jax.Array,其中包含应在单个进程内复制但未复制的数据,JAX 将会引发错误(对于跨进程的模型并行情况并非总是如此;请参阅下一节)。

这是一个示例,说明如何使用 tf.data 实现每个进程的模型并行和数据并行

import jax
import tensorflow as tf
import numpy as np

################################################################################
# Step 1: Set up the Dataset with a different data shard per-process (do once)
#         (same as for pure data parallelism)
################################################################################
# Fake example data (replace with your Dataset)
per_process_batches = [np.ones((16, 3)) * i for i in range(100)]
ds = tf.data.Dataset.from_tensor_slices(per_process_batches)

ds = ds.shard(num_shards=jax.process_count(), index=jax.process_index())

################################################################################
# Step 2: Create a jax.Array of per-replica batches from the per-process batch
# produced from the Dataset (repeat every step)
################################################################################
# Grab just the first batch from the Dataset for this example
per_process_batch = ds.as_numpy_iterator().next()

num_model_replicas_per_process = 2 # set according to your parallelism strategy
num_model_replicas_total = num_model_replicas_per_process * jax.process_count()

# Create an example `Mesh` for per-process data parallelism. Make sure all devices
# are grouped by process, and then resize so each row is a model replica.
mesh_devices = np.array([jax.local_devices(process_idx)
                         for process_idx in range(jax.process_count())])
mesh_devices = mesh_devices.reshape(num_model_replicas_total, -1)
# Double check that each replica's devices are on a single process.
for replica_devices in mesh_devices:
  num_processes = len(set(d.process_index for d in replica_devices))
  assert num_processes == 1
mesh = jax.sharding.Mesh(mesh_devices, ["model_replicas", "data_parallelism"])

# Shard the data across model replicas. You don't shard across the
# data_parallelism mesh axis, meaning each per-replica shard will be replicated
# across that axis.
sharding = jax.sharding.NamedSharding(
    mesh, jax.sharding.PartitionSpec("model_replicas"))

global_batch_array = jax.make_array_from_process_local_data(
    sharding, per_process_batch)

跨进程的模型并行#

当模型副本分布在进程中时,情况可能会变得更加有趣,无论是

  • 因为单个副本无法容纳在一个进程中;还是

  • 因为设备分配没有以这种方式设置。

例如,回到先前每个进程 2 个设备的 4 个进程的设置,如果您像这样将设备分配给副本

Model parallelism across processes - example 1

这与之前的每个进程模型并行示例采用相同的并行策略——4 个模型副本,每个副本分布在 2 个设备上。唯一的区别在于设备分配——每个副本的两个设备分布在不同的进程中,并且每个进程仅负责每个每个副本批次的一个副本(但对于两个副本)。

像这样跨进程拆分模型副本似乎是一件任意且不必要的事情(并且在此示例中,它可能确实如此),但实际部署可能会最终采用这种设备分配,以便最好地利用设备之间的通信链路。

数据加载现在变得更加复杂,因为需要在进程之间进行额外的协调。在纯数据并行和每个进程模型并行的情况下,每个进程仅加载唯一的数据流非常重要。现在,某些进程必须加载相同的数据,而某些进程必须加载不同的数据。在上面的示例中,进程 02(分别以粉色和绿色表示)必须加载相同的 2 个每个副本的批次,而进程 13(分别以黄色和蓝色表示)也必须加载相同的 2 个每个副本的批次(但与进程 02 的批次不同)。

此外,每个进程都不要混淆其 2 个每个副本的批次非常重要。虽然您不关心哪个批次落在哪个副本上(关于数据并行性的非常重要的技巧),但您需要关心副本中的所有设备都获得相同的批次。例如,这会很糟糕

Model parallelism across processes - example 2

注意

截至 2023 年 8 月,JAX 无法检测到跨进程的 jax.Array 分片是否应该复制但未复制,并且在运行计算时会产生错误的结果。因此,请小心不要这样做!

为了在每个设备上获得正确的每副本批次,你需要将全局输入数据表示为以下 jax.Array

Model parallelism across processes - example 3