jax.experimental.pallas.pallas_call

内容

jax.experimental.pallas.pallas_call#

jax.experimental.pallas.pallas_call(kernel, out_shape, *, grid_spec=None, grid=(), in_specs=NoBlockSpec, out_specs=NoBlockSpec, input_output_aliases={}, debug=False, interpret=False, name=None, compiler_params=None, cost_estimate=None)[source]#

在一些输入上调用 Pallas 内核。

Pallas 快速入门.

参数:
  • kernel (Callable[..., None]) – 内核函数,接收每个输入和输出的 Ref。Ref 的形状由对应 in_specsout_specs 中的 block_shape 给出。

  • out_shape (Any) – 描述输出形状和数据类型的 jax.ShapeDtypeStruct 的 PyTree。

  • grid_spec (GridSpec | None | None) – 指定 gridin_specsout_specs 的另一种方法。如果给出,则不能同时给出其他参数。

  • grid (TupleGrid) – 迭代空间,作为整数元组。内核执行的次数与 prod(grid) 相同。有关详细信息,请参见 grid,即循环中的内核

  • in_specs (BlockSpecTree) – jax.experimental.pallas.BlockSpec 的 PyTree,其结构与位置参数匹配。in_specs 的默认值指定所有输入的整个数组,例如,为 pl.BlockSpec(x.shape, lambda *indices: (0,) * x.ndim)。有关详细信息,请参见 BlockSpec,即如何将输入分成块

  • out_specs (BlockSpecTree) – jax.experimental.pallas.BlockSpec 的 PyTree,其结构与输出匹配。out_specs 的默认值指定整个数组,例如,为 pl.BlockSpec(x.shape, lambda *indices: (0,) * x.ndim)。有关详细信息,请参见 BlockSpec,即如何将输入分成块

  • input_output_aliases (dict[int, int]) – 一个字典,将某些输入的索引映射到与其别名相关的输出的索引。这些索引在扁平化的输入和输出中。

  • debug (bool) – 如果为 True,Pallas 会在处理内核时打印各种中间形式。

  • interpret (bool) – 将 pallas_call 运行为对网格的扫描的 jax.jit,其主体是作为 JAX 函数降低的内核。这不需要 TPU 或 GPU,是 CPU 上运行 Pallas 内核的唯一方法。这对于调试很有用。

  • name (str | None | None) – 如果存在,则指定在调试和错误消息中使用的此内核调用的名称。我们将在该名称后追加定义内核函数的文件和行号,例如:{name} for kernel function {kernel_name} at {file}:{line}。如果缺失,则使用 {kernel_name} at {file}:{line}

  • compiler_params (dict[str, Any] | pallas_core.CompilerParams | None | None) – 可选的编译器参数。如果提供字典,则它应该是 {platform: {param_name: param_value}} 形式,其中 platform 为 ‘mosaic’ 或 ‘triton’。也可以为 TPU 传入 jax.experimental.pallas.tpu.TPUCompilerParams,为 Triton/GPU 传入 jax.experimental.pallas.gpu.TritonCompilerParams

  • cost_estimate (CostEstimate | None | None)

返回值:

可以对多个位置数组参数进行调用以调用 Pallas 内核的函数。

返回类型:

Callable[…, Any]