关键概念#

本节简要介绍 JAX 包的一些关键概念。

JAX 数组 (jax.Array)#

JAX 中的默认数组实现是 jax.Array。在很多方面,它类似于您可能熟悉的 NumPy 包中的 numpy.ndarray 类型,但它也有一些重要的区别。

数组创建#

我们通常不直接调用 jax.Array 构造函数,而是通过 JAX API 函数创建数组。例如,jax.numpy 提供了熟悉的 NumPy 风格的数组构造功能,例如 jax.numpy.zeros()jax.numpy.linspace()jax.numpy.arange() 等。

import jax
import jax.numpy as jnp

x = jnp.arange(5)
isinstance(x, jax.Array)
True

如果您在代码中使用 Python 类型注释,jax.Array 是 jax 数组对象的适当注释(有关更多讨论,请参阅 jax.typing)。

数组设备和分片#

JAX 数组对象有一个 devices 方法,可以让你检查数组的内容存储在哪里。在最简单的情况下,这将是一个单独的 CPU 设备。

x.devices()
{CpuDevice(id=0)}

通常,数组可能会在多个设备上进行 _分片_,可以通过 sharding 属性进行检查。

x.sharding
SingleDeviceSharding(device=CpuDevice(id=0), memory_kind=unpinned_host)

这里数组在一个单独的设备上,但通常情况下,JAX 数组可以跨多个设备甚至多个主机进行分片。要了解更多关于分片数组和并行计算的信息,请参考 并行编程简介

转换#

除了用于对数组进行操作的函数外,JAX 还包含许多 转换,这些转换对 JAX 函数进行操作。这些包括

以及其他一些。转换接受一个函数作为参数,并返回一个新的转换后的函数。例如,以下是如何 JIT 编译一个简单的 SELU 函数

def selu(x, alpha=1.67, lambda_=1.05):
  return lambda_ * jnp.where(x > 0, x, alpha * jnp.exp(x) - alpha)

selu_jit = jax.jit(selu)
print(selu_jit(1.0))
1.05

通常,你会看到转换使用 Python 的装饰器语法来应用,以方便使用。

@jax.jit
def selu(x, alpha=1.67, lambda_=1.05):
  return lambda_ * jnp.where(x > 0, x, alpha * jnp.exp(x) - alpha)

诸如 jit()vmap()grad() 等转换是有效使用 JAX 的关键,我们将在后面的部分详细介绍它们。

追踪#

转换背后的魔力是 追踪器 的概念。追踪器是数组对象的抽象替身,它们被传递给 JAX 函数以提取函数编码的操作序列。

你可以通过在转换后的 JAX 代码中打印任何数组值来看到这一点;例如

@jax.jit
def f(x):
  print(x)
  return x + 1

x = jnp.arange(5)
result = f(x)
Traced<ShapedArray(int32[5])>with<DynamicJaxprTrace(level=1/0)>

打印的值不是数组 x,而是一个 Tracer 实例,它代表 x 的基本属性,例如它的 shapedtype。通过使用追踪值执行函数,JAX 可以确定函数编码的操作序列,然后再实际执行这些操作:诸如 jit()vmap()grad() 等转换然后可以将这个输入操作序列映射到一个转换后的操作序列。

Jaxpr#

JAX 有自己的操作序列中间表示,称为 jaxpr。jaxpr(JAX exPRession 的简称)是函数程序的简单表示,它包含一系列 基本 操作。

例如,考虑上面定义的 selu 函数

def selu(x, alpha=1.67, lambda_=1.05):
  return lambda_ * jnp.where(x > 0, x, alpha * jnp.exp(x) - alpha)

我们可以使用 jax.make_jaxpr() 工具将此函数转换为给定特定输入的 jaxpr

x = jnp.arange(5.0)
jax.make_jaxpr(selu)(x)
{ lambda ; a:f32[5]. let
    b:bool[5] = gt a 0.0
    c:f32[5] = exp a
    d:f32[5] = mul 1.6699999570846558 c
    e:f32[5] = sub d 1.6699999570846558
    f:f32[5] = pjit[
      name=_where
      jaxpr={ lambda ; g:bool[5] h:f32[5] i:f32[5]. let
          j:f32[5] = select_n g i h
        in (j,) }
    ] b a e
    k:f32[5] = mul 1.0499999523162842 f
  in (k,) }

将此与 Python 函数定义进行比较,我们会发现它编码了函数所表示的精确操作序列。我们将在后面的部分更深入地了解 jaxpr,参见 JAX 内部:jaxpr 语言

Pytree#

JAX 函数和转换在根本上是对数组进行操作,但在实践中,编写处理数组集合的代码很方便:例如,神经网络可能在具有有意义键的数组字典中组织其参数。JAX 并不逐案处理这些结构,而是依靠 pytree 抽象来统一地处理这些集合。

以下是一些可以被视为 pytree 的对象的示例。

# (nested) list of parameters
params = [1, 2, (jnp.arange(3), jnp.ones(2))]

print(jax.tree.structure(params))
print(jax.tree.leaves(params))
PyTreeDef([*, *, (*, *)])
[1, 2, Array([0, 1, 2], dtype=int32), Array([1., 1.], dtype=float32)]
# Dictionary of parameters
params = {'n': 5, 'W': jnp.ones((2, 2)), 'b': jnp.zeros(2)}

print(jax.tree.structure(params))
print(jax.tree.leaves(params))
PyTreeDef({'W': *, 'b': *, 'n': *})
[Array([[1., 1.],
       [1., 1.]], dtype=float32), Array([0., 0.], dtype=float32), 5]
# Named tuple of parameters
from typing import NamedTuple

class Params(NamedTuple):
  a: int
  b: float

params = Params(1, 5.0)
print(jax.tree.structure(params))
print(jax.tree.leaves(params))
PyTreeDef(CustomNode(namedtuple[Params], [*, *]))
[1, 5.0]

JAX 有许多用于处理 PyTree 的通用工具;例如,函数 jax.tree.map() 可用于将函数映射到树中的每个叶节点,而 jax.tree.reduce() 可用于对树中的叶节点应用归约。

你可以在 使用 pytree 教程中了解更多信息。