分布式数据加载#

本高级指南演示了如何在多主机或多进程环境中运行 JAX 时执行分布式数据加载,并且 JAX 计算所需的数据在多个进程之间拆分。本文档涵盖了如何考虑分布式数据加载的总体方法,然后如何将其应用于数据并行(更简单)和模型并行(更复杂)的工作负载。

分布式数据加载通常更有效率(数据在进程之间分割),但与以下替代方案相比也更复杂:1)在单个进程中加载完整全局数据,将其分割并通过 RPC 发送到其他进程所需的部分;2)在所有进程中加载完整全局数据,并且仅在每个进程中使用所需的部分。加载完整全局数据通常更简单,但成本更高。例如,在机器学习中,训练循环可能会在等待数据时被阻塞,并且每个进程都会使用额外的网络带宽。

注意

当使用分布式数据加载时,重要的是每个设备(例如,每个 GPU 或 TPU)都可以访问它运行计算所需的输入数据分片。这通常使得分布式数据加载更复杂,并且在正确实现方面更具挑战性(与上述替代方案相比)。如果错误的数据分片最终出现在错误的设备上,计算仍然可以无错误地运行,因为计算无法知道输入数据“应该”是什么。但是,最终结果通常会不正确,因为输入数据与预期不同。

加载 jax.Array 的通用方法#

考虑一种情况,即从非 JAX 生成的原始数据创建一个单独的 jax.Array。这些概念不仅适用于加载批处理数据记录,还适用于任何非 JAX 计算直接生成的多进程 jax.Array。示例包括:1)从检查点加载模型权重;或 2)加载大型空间分片图像。

每个 jax.Array 都有一个关联的 Sharding,它描述了每个全局设备需要哪个全局数据分片。当您从头开始创建 jax.Array 时,还需要创建其 Sharding。这就是 JAX 如何理解数据在设备之间的布局方式。您可以创建任何您想要的 Sharding。在实践中,您通常会根据您正在实现的并行策略类型选择 Sharding(您将在本指南的后面详细了解数据和模型并行性)。您还可以根据每个进程中原始数据的生成方式选择 Sharding

定义 Sharding 后,您可以使用 addressable_devices() 来提供当前进程中加载数据所需的设备列表。(注意:“可寻址设备”是“本地设备”的更通用版本。目标是确保每个进程的数据加载器为该进程的所有本地设备提供正确的数据。

示例#

例如,考虑一个 (64, 128)jax.Array,您需要将其在 4 个进程(每个进程 2 个设备,总共 8 个设备)中进行分片。这将导致 8 个唯一的数据分片,每个设备一个。有很多方法可以对这个 jax.Array 进行分片。您可以沿着 jax.Array 的第二个维度执行 1D 分片,为每个设备提供一个 (64, 16) 的分片,如下所示

8 unique data shards

在上图中,每个数据分片都有其自己的颜色,以指示哪个进程需要加载该分片。例如,您假设进程 0 的 2 个设备包含分片 AB,对应于全局数据的前 (64, 32) 部分。

您可以选择不同的分片到设备的分布。例如

8 unique data shards - different distribution

这是另一个示例——2D 分片

2D sharding

但是,无论 jax.Array 如何分片,都必须确保每个进程的数据加载器都提供/加载了全局数据的所需分片。有几种实现此目的的高级方法:1)在每个进程中加载全局数据;2)使用按设备数据管道;3)使用整合的按进程数据管道;4)以某种方便的方式加载数据,然后在计算内部重新分片。

选项 1:在每个进程中加载全局数据#

Loading the global data in each process

使用此选项,每个进程

  1. 加载所需完整值;并且

  2. 仅将所需的分片传输到该进程的本地设备。

这不是分布式数据加载的有效方法,因为每个进程都会丢弃其本地设备不需要的数据,并且摄取的总数据量可能会高于必要的数量。但是此选项有效并且实现起来相对简单,而对于某些工作负载而言,性能开销可能是可以接受的(例如,如果全局数据很小)。

选项 2:使用按设备数据管道#

Using a per-device data pipeline

在此选项中,每个进程为其每个本地设备设置一个数据加载器(也就是说,每个设备都有自己的数据加载器,仅用于其所需的数据分片)。

就加载的数据而言,这是高效的。有时也可以更简单地单独考虑每个设备,而不是一次考虑一个进程的所有本地设备(请参阅下面的“选项 3:使用整合的按进程数据管道”)。但是,拥有多个并发数据加载器有时会导致性能问题。

选项 3:使用整合的按进程数据管道#

Using a consolidated per-process data pipeline

如果您选择此选项,则每个进程

  1. 设置一个单一的数据加载器,该加载器加载其所有本地设备所需的数据;然后

  2. 在传输到每个本地设备之前对本地数据进行分片。

这是最有效的分布式加载方法。但是,它也是最复杂的,因为既需要逻辑来确定每个设备需要哪些数据,还需要创建单个数据加载器来仅加载所有这些数据(并且,理想情况下,没有其他额外数据)。

选项 4:以某种方便的方式加载数据,并在计算内部重新分片#

Loading  data in some convenient way, reshard inside computation

这个选项更难解释,但通常比以上选项(从 1 到 3)更容易实现。

想象一下这种情况,即很难或根本不可能设置数据加载器来加载您需要的确切数据,无论是按设备还是按进程的加载器。但是,仍然可以为每个进程设置一个数据加载器,该加载器加载 1 / num_processes 的数据,只是不是以正确的分片方式加载。

然后,继续使用之前的 2D 分片示例,假设每个进程更容易加载数据的单个列

然后,您可以创建一个带有 Shardingjax.Array,该 Sharding 表示按列数据,将其直接传递到计算中,并使用 jax.lax.with_sharding_constraint() 立即将按列分片的输入重新分片为所需的分片。并且由于数据在计算内部重新分片,因此它将在加速器通信链路上重新分片(例如,TPU ICI 或 NVLink)。

此选项 4 与选项 3(使用整合的按进程数据管道)具有相似的优点

  • 每个进程仍然具有一个单一的数据加载器;并且

  • 全局数据在所有进程中恰好加载一次;并且

  • 全局数据还具有在数据加载方式方面提供更大灵活性的额外好处。

但是,此方法使用加速器互连带宽来执行重新分片,这可能会减慢某些工作负载的速度。选项 4 还要求输入数据表示为单独的 Sharding,以及目标 Sharding

复制#

复制描述的是多个设备具有相同数据分片的过程。上面提到的一般选项(选项 1 到 4)仍然可以与复制一起使用。唯一的区别是某些进程最终可能会加载相同的数据分片。本节介绍完全复制和部分复制。

完全复制#

完全复制是所有设备都拥有完整数据副本的过程(也就是说,数据“分片”是整个数组值)。

在下面的示例中,由于总共有 8 个设备(每个进程 2 个),您最终将获得完整数据的 8 个副本。每个数据副本都是未分片的,也就是说,该副本位于单个设备上

Full replication

部分复制#

部分复制描述的是这样一种过程:存在多个数据副本,并且每个副本都在多个设备上进行了分片。对于给定的数组值,通常有多种执行部分复制的方法(注意:对于给定的数组形状,始终存在一个完全复制的Sharding)。

以下是两个可能的例子。

在下面的第一个例子中,每个副本在进程的两个本地设备上进行分片,总共有 4 个副本。这意味着每个进程都需要加载完整的全局数据,因为其本地设备将拥有数据的完整副本。

Partial replication - example 1

在下面的第二个例子中,每个副本仍然在两个设备上分片,但每个设备对分布在两个不同的进程中。进程 0(粉色)和进程 1(黄色)都需要只加载数据的第一行,而进程 2(绿色)和进程 3(蓝色)都需要只加载数据的第二行。

Partial replication - example 2

现在您已经了解了创建 jax.Array 的高级选项,让我们将它们应用于 ML 应用的数据加载。

数据并行#

纯数据并行(不使用模型并行)中

  • 您在每个设备上复制模型;并且

  • 每个模型副本(即每个设备)接收不同的每个副本数据批次。

Data parallelism - example 1

当将输入数据表示为单个 jax.Array 时,该 Array 包含此步骤中所有副本的数据(这称为全局批次),其中 jax.Array 的每个分片包含单个每个副本的批次。您可以将其表示为跨所有设备的一维分片(请查看下面的示例)——换句话说,全局批次由所有每个副本的批次在批次轴上连接在一起组成。

Data parallelism - example 2

应用此框架,您可以得出结论:进程 0 应该获得全局批次的前四分之一(8 个中的 2 个),而进程 1 应该获得第二个,依此类推。

但是,您如何知道前四分之一是什么?又如何确保进程 0 获得前四分之一?幸运的是,关于数据并行有一个非常重要的技巧,这意味着您不必回答这些问题,并且使整个设置更加简单。

关于数据并行性的重要技巧#

技巧在于您不需要关心哪个每个副本批次落在了哪个副本上。因此,哪个进程加载批次并不重要。原因是,由于每个设备都对应于执行相同操作的模型副本,因此全局批次中哪个设备获取哪个每个副本的批次并不重要。

这意味着您可以自由地重新排列全局批次中的每个副本批次。换句话说,您可以自由地随机化每个设备获得哪个数据分片。

例如

Data parallelism - example 3

通常,如上所示,重新排列 jax.Array 的数据分片不是一个好主意 – 您实际上是在置换 jax.Array 的值!但是,对于数据并行,全局批次顺序没有意义,您可以自由地重新排列全局批次中的每个副本批次,如前所述。

这简化了数据加载,因为它意味着每个设备只需要一个独立的每个副本批次的流,这可以通过在大多数数据加载器中为每个进程创建一个独立的管道并将生成的每个进程批次分块为每个副本批次来实现。

Data parallelism - example 4

这是选项 2:合并的每个进程数据管道的一个实例。您还可以使用其他选项(例如 0、1 和 3,这些选项在本文档的前面部分介绍),但这个选项相对简单且高效。

以下是如何使用 tf.data 实现此设置的示例

import jax
import tensorflow as tf
import numpy as np

################################################################################
# Step 1: setup the Dataset for pure data parallelism (do once)
################################################################################
# Fake example data (replace with your Dataset)
ds = tf.data.Dataset.from_tensor_slices(
    [np.ones((16, 3)) * i for i in range(100)])

ds = ds.shard(num_shards=jax.process_count(), index=jax.process_index())

################################################################################
# Step 2: create a jax.Array of per-replica batches from the per-process batch
# produced from the Dataset (repeat every step). This can be used with batches
# produced by different data loaders as well!
################################################################################
# Grab just the first batch from the Dataset for this example
per_process_batch = ds.as_numpy_iterator().next()

mesh = jax.make_mesh((jax.device_count(),), ('batch',))
sharding = jax.NamedSharding(mesh, jax.sharding.PartitionSpec('batch'))
global_batch_array = jax.make_array_from_process_local_data(
    sharding, per_process_batch)

数据 + 模型并行#

模型并行中,您将每个模型副本分片到多个设备上。如果您使用纯模型并行(不使用数据并行)

  • 只有一个跨所有设备分片的模型副本;并且

  • 数据(通常)在所有设备上完全复制。

本指南考虑使用数据并行和模型并行的情况

  • 您将多个模型副本中的每一个分片到多个设备上;并且

  • 您在每个模型副本上部分复制数据——同一模型副本中的每个设备获得相同的每个副本批次,而跨模型副本的设备获得不同的每个副本批次。

进程内的模型并行#

为了数据加载的目的,最简单的方法是在单个进程的本地设备内对每个模型副本进行分片。

对于此示例,让我们切换到每个进程 4 个设备(而不是每个进程 2 个设备的 4 个进程)。考虑这样一种情况:每个模型副本在单个进程的 2 个本地设备上进行分片。这导致每个进程有 2 个模型副本,总共有 4 个模型副本,如下所示

Data and model parallelism - example 1

在这里,输入数据再次表示为单个 jax.Array,其中一维分片的每个分片都是一个每个副本批次,但有一个例外

  • 与纯数据并行情况不同,您引入了部分复制,并制作了 1D 分片全局批次的 2 个副本。

  • 这是因为每个模型副本都由 2 个设备组成,每个设备都需要一个每个副本批次的副本。

Data and model parallelism - example 2

将每个模型副本保持在单个进程中可以使事情变得更简单,因为您可以重用上述的纯数据并行设置,只是还需要复制每个副本的批次

Data and model parallelism - example 3

注意

将每个副本的批次复制到正确的设备也非常重要!虽然关于数据并行性的非常重要的技巧意味着您不关心哪个批次最终落在哪个副本上,但您确实关心单个副本只获得单个批次

例如,这是可以的

Data and model parallelism - example 4

但是,如果您不注意将每个批次加载到哪个本地设备上,即使 Sharding(和并行策略)表明数据已复制,您也可能会意外地创建未复制的数据

Data and model parallelism - example 4

如果您意外地创建了一个 jax.Array,其中未复制的数据应在单个进程中复制(但对于跨进程的模型并行并不总是如此;请参阅下一节),JAX 将引发错误。

以下是如何使用 tf.data 实现每个进程的模型并行和数据并行的示例

import jax
import tensorflow as tf
import numpy as np

################################################################################
# Step 1: Set up the Dataset with a different data shard per-process (do once)
#         (same as for pure data parallelism)
################################################################################
# Fake example data (replace with your Dataset)
per_process_batches = [np.ones((16, 3)) * i for i in range(100)]
ds = tf.data.Dataset.from_tensor_slices(per_process_batches)

ds = ds.shard(num_shards=jax.process_count(), index=jax.process_index())

################################################################################
# Step 2: Create a jax.Array of per-replica batches from the per-process batch
# produced from the Dataset (repeat every step)
################################################################################
# Grab just the first batch from the Dataset for this example
per_process_batch = ds.as_numpy_iterator().next()

num_model_replicas_per_process = 2 # set according to your parallelism strategy
num_model_replicas_total = num_model_replicas_per_process * jax.process_count()

# Create an example `Mesh` for per-process data parallelism. Make sure all devices
# are grouped by process, and then resize so each row is a model replica.
mesh_devices = np.array([jax.local_devices(process_idx)
                         for process_idx in range(jax.process_count())])
mesh_devices = mesh_devices.reshape(num_model_replicas_total, -1)
# Double check that each replica's devices are on a single process.
for replica_devices in mesh_devices:
  num_processes = len(set(d.process_index for d in replica_devices))
  assert num_processes == 1
mesh = jax.sharding.Mesh(mesh_devices, ["model_replicas", "data_parallelism"])

# Shard the data across model replicas. You don't shard across the
# data_parallelism mesh axis, meaning each per-replica shard will be replicated
# across that axis.
sharding = jax.sharding.NamedSharding(
    mesh, jax.sharding.PartitionSpec("model_replicas"))

global_batch_array = jax.make_array_from_process_local_data(
    sharding, per_process_batch)

跨进程的模型并行#

当模型副本分布在多个进程中时,情况可能会变得更有趣,原因可能是

  • 单个副本无法容纳在一个进程中;或者

  • 设备分配的设置方式并非如此。

例如,回到之前每个进程 2 个设备的 4 个进程的设置,如果您像这样将设备分配给副本

Model parallelism across processes - example 1

这与之前的每个进程模型并行示例的并行策略相同——4 个模型副本,每个副本在 2 个设备上分片。唯一的区别在于设备分配——每个副本的两个设备分布在不同的进程中,并且每个进程仅负责每个副本批次的一个副本(但对于两个副本)。

像这样跨进程拆分模型副本可能看起来是任意且不必要的操作(并且在此示例中,它可能确实如此),但实际部署可能会使用这种设备分配来最好地利用设备之间的通信链路。

现在,数据加载变得更加复杂,因为需要在进程之间进行额外的协调。在纯数据并行和每个进程的模型并行情况下,每个进程加载唯一的数据流才是重要的。现在,某些进程必须加载相同的数据,而某些进程必须加载不同的数据。在上面的示例中,进程 02(分别用粉色和绿色表示)必须加载相同的 2 个每个副本批次,而进程 13(分别用黄色和蓝色表示)也必须加载相同的 2 个每个副本批次(但与进程 02 的批次不同)。

此外,重要的是每个进程不要混淆其 2 个每个副本批次。虽然您不关心哪个批次落在哪个副本上(关于数据并行性的非常重要的技巧),但您需要关心副本中的所有设备都获得相同的批次。例如,这将是不好的

Model parallelism across processes - example 2

注意

截至 2023 年 8 月,JAX 无法检测跨进程的 jax.Array 分片是否应该被复制但实际上没有被复制,并且在运行计算时会产生错误的结果。因此请小心不要这样做!

为了在每个设备上获得正确的每个副本批次,您需要将全局输入数据表示为以下 jax.Array

Model parallelism across processes - example 3