计算性能分析#

使用 Perfetto 查看程序跟踪#

我们可以使用 JAX 性能分析器生成 JAX 程序的跟踪,并使用 Perfetto 可视化工具 进行可视化。目前,此方法会阻塞程序,直到单击链接并 Perfetto UI 加载跟踪。如果您希望在没有任何交互的情况下获取性能分析信息,请查看下面的 Tensorboard 性能分析器。

with jax.profiler.trace("/tmp/jax-trace", create_perfetto_link=True):
  # Run the operations to be profiled
  key = jax.random.key(0)
  x = jax.random.normal(key, (5000, 5000))
  y = x @ x
  y.block_until_ready()

完成此计算后,程序将提示您打开指向 ui.perfetto.dev 的链接。当您打开链接时,Perfetto UI 将加载跟踪文件并打开可视化工具。

Perfetto trace viewer

加载链接后,程序执行将继续。链接在打开一次后将不再有效,但它将重定向到一个新的有效 URL。然后,您可以单击 Perfetto UI 中的“共享”按钮以创建指向跟踪的永久链接,该链接可以与其他人共享。

远程性能分析#

在对远程运行的代码(例如在托管的 VM 上)进行性能分析时,您需要在端口 9001 上建立 SSH 隧道才能使链接正常工作。您可以使用以下命令执行此操作

$ ssh -L 9001:127.0.0.1:9001 <user>@<host>

或者如果您使用的是 Google Cloud

$ gcloud compute ssh <machine-name> -- -L 9001:127.0.0.1:9001

手动捕获#

无需使用 jax.profiler.trace 以编程方式捕获跟踪,您可以在目标脚本中调用 jax.profiler.start_server(<port>) 启动性能分析服务器。如果您只需要在脚本的某些部分激活性能分析服务器,则可以通过调用 jax.profiler.stop_server() 关闭它。

脚本运行后且性能分析服务器启动后,我们可以手动捕获和跟踪,方法如下:

$ python -m jax.collect_profile <port> <duration_in_ms>

默认情况下,生成的跟踪信息会被转储到一个临时目录中,但可以通过传递 --log_dir=<directory of choice> 来覆盖此行为。此外,默认情况下,程序会提示您打开指向 ui.perfetto.dev 的链接。当您打开链接时,Perfetto UI 会加载跟踪文件并打开可视化界面。可以通过传递 --no_perfetto_link 到命令中禁用此功能。或者,您也可以将 TensorBoard 指向 log_dir 来分析跟踪(请参阅下面的“TensorBoard 性能分析”部分)。

TensorBoard 性能分析#

TensorBoard 的性能分析器 可用于分析 JAX 程序。Tensorboard 是一种获取和可视化程序性能跟踪和概要文件(包括 GPU 和 TPU 上的活动)的绝佳方法,最终结果如下所示

TensorBoard profiler example

安装#

TensorBoard 性能分析器仅适用于与 TensorFlow 捆绑在一起的 TensorBoard 版本。

pip install tensorflow tensorboard-plugin-profile

如果您已安装 TensorFlow,则只需安装 tensorboard-plugin-profile pip 包即可。请注意,只安装一个版本的 TensorFlow 或 TensorBoard,否则您可能会遇到 下面 描述的“重复插件”错误。有关安装 TensorBoard 的更多信息,请参阅 https://tensorflowcn.cn/guide/profiler

编程方式捕获#

您可以通过 jax.profiler.start_trace()jax.profiler.stop_trace() 方法为代码添加检测点以捕获性能分析跟踪。使用要写入跟踪文件的目录调用 start_trace()。这应该与用于启动 TensorBoard 的 --logdir 目录相同。然后,您可以使用 TensorBoard 查看跟踪。

例如,要获取性能分析跟踪

import jax

jax.profiler.start_trace("/tmp/tensorboard")

# Run the operations to be profiled
key = jax.random.key(0)
x = jax.random.normal(key, (5000, 5000))
y = x @ x
y.block_until_ready()

jax.profiler.stop_trace()

请注意 block_until_ready() 调用。我们使用它来确保跟踪捕获设备上的执行。有关为什么需要此操作的详细信息,请参阅 异步调度

您还可以使用 jax.profiler.trace() 上下文管理器作为 start_tracestop_trace 的替代方案

import jax

with jax.profiler.trace("/tmp/tensorboard"):
  key = jax.random.key(0)
  x = jax.random.normal(key, (5000, 5000))
  y = x @ x
  y.block_until_ready()

要查看跟踪,首先启动 TensorBoard(如果尚未启动)

$ tensorboard --logdir=/tmp/tensorboard
[...]
Serving TensorBoard on localhost; to expose to the network, use a proxy or pass --bind_all
TensorBoard 2.5.0 at http://localhost:6006/ (Press CTRL+C to quit)

在此示例中,您应该能够在 http://localhost:6006/ 加载 TensorBoard。您可以使用 --port 标记指定不同的端口。如果在远程服务器上运行 JAX,请参阅下面的 在远程机器上进行性能分析

然后,在右上角的下拉菜单中选择“Profile”,或直接转到 http://localhost:6006/#profile。可用的跟踪显示在左侧的“Runs”下拉菜单中。选择您感兴趣的运行,然后在“Tools”下选择 trace_viewer。您现在应该会看到执行的时间线。您可以使用 WASD 键导航跟踪,并单击或拖动以选择事件以查看底部的更多详细信息。有关使用跟踪查看器的更多详细信息,请参阅 这些 TensorFlow 文档

您还可以使用 memory_viewerop_profilegraph_viewer 工具。

通过 TensorBoard 手动捕获#

以下是有关从正在运行的程序中手动触发 N 秒跟踪的说明。

  1. 启动 TensorBoard 服务器

    tensorboard --logdir /tmp/tensorboard/
    

    您应该能够在 http://localhost:6006/ 加载 TensorBoard。您可以使用 --port 标记指定不同的端口。如果在远程服务器上运行 JAX,请参阅下面的 在远程机器上进行性能分析

  2. 在您想要分析的 Python 程序或进程中,在开头附近添加以下内容

    import jax.profiler
    jax.profiler.start_server(9999)
    

    这将启动 TensorBoard 连接到的性能分析服务器。在继续下一步之前,必须运行性能分析服务器。完成后,您可以调用 jax.profiler.stop_server() 关闭它。

    如果您想要分析长时间运行程序(例如,长时间训练循环)的片段,您可以将其放在程序的开头并照常启动程序。如果您想要分析一个短程序(例如,一个微基准测试),一个选项是在 IPython shell 中启动性能分析服务器,并在下一步开始捕获后使用 %run 运行短程序。另一个选项是在程序的开头启动性能分析服务器,并使用 time.sleep() 为您提供足够的时间来启动捕获。

  3. 打开 http://localhost:6006/#profile,然后单击左上角的“CAPTURE PROFILE”按钮。输入“localhost:9999”作为性能分析服务 URL(这是您在上一步中启动的性能分析服务器的地址)。输入您想要分析的毫秒数,然后单击“CAPTURE”。

  4. 如果要分析的代码尚未运行(例如,如果您在 Python shell 中启动了性能分析服务器),请在捕获正在运行时运行它。

  5. 捕获完成后,TensorBoard 应该会自动刷新。(并非所有 TensorBoard 性能分析功能都与 JAX 相关联,因此最初可能看起来没有任何内容被捕获。)在左侧的“Tools”下,选择 trace_viewer

    您现在应该会看到执行的时间线。您可以使用 WASD 键导航跟踪,并单击或拖动以选择事件以查看底部的更多详细信息。有关使用跟踪查看器的更多详细信息,请参阅 这些 TensorFlow 文档

    您还可以使用 memory_viewerop_profilegraph_viewer 工具。

添加自定义跟踪事件#

默认情况下,跟踪查看器中的事件大多是底层的内部 JAX 函数。您可以通过在代码中使用 jax.profiler.TraceAnnotationjax.profiler.annotate_function() 添加您自己的事件和函数。

故障排除#

GPU 性能分析#

在 GPU 上运行的程序应为跟踪查看器顶部的 GPU 流生成跟踪。如果您只看到主机跟踪,请检查程序日志和/或输出中是否存在以下错误消息。

如果您收到类似以下的错误:Could not load dynamic library 'libcupti.so.10.1'
完整错误

W external/org_tensorflow/tensorflow/stream_executor/platform/default/dso_loader.cc:55] Could not load dynamic library 'libcupti.so.10.1'; dlerror: libcupti.so.10.1: cannot open shared object file: No such file or directory
2020-06-12 13:19:59.822799: E external/org_tensorflow/tensorflow/core/profiler/internal/gpu/cupti_tracer.cc:1422] function cupti_interface_->Subscribe( &subscriber_, (CUpti_CallbackFunc)ApiCallback, this)failed with error CUPTI could not be loaded or symbol could not be found.

libcupti.so 的路径添加到环境变量 LD_LIBRARY_PATH 中。(尝试 locate libcupti.so 查找路径。)例如

export LD_LIBRARY_PATH=/usr/local/cuda-10.1/extras/CUPTI/lib64/:$LD_LIBRARY_PATH

如果在执行此操作后仍然收到 Could not load dynamic library 消息,请检查 GPU 跟踪是否在跟踪查看器中显示。即使一切正常,此消息有时也会出现,因为它会在多个位置查找 libcupti 库。

如果您收到类似以下的错误:failed with error CUPTI_ERROR_INSUFFICIENT_PRIVILEGES
完整错误

E external/org_tensorflow/tensorflow/core/profiler/internal/gpu/cupti_tracer.cc:1445] function cupti_interface_->EnableCallback( 0 , subscriber_, CUPTI_CB_DOMAIN_DRIVER_API, cbid)failed with error CUPTI_ERROR_INSUFFICIENT_PRIVILEGES
2020-06-12 14:31:54.097791: E external/org_tensorflow/tensorflow/core/profiler/internal/gpu/cupti_tracer.cc:1487] function cupti_interface_->ActivityDisable(activity)failed with error CUPTI_ERROR_NOT_INITIALIZED

运行以下命令(注意,这需要重新启动)

echo 'options nvidia "NVreg_RestrictProfilingToAdminUsers=0"' | sudo tee -a /etc/modprobe.d/nvidia-kernel-common.conf
sudo update-initramfs -u
sudo reboot now

有关更多信息,请参阅 NVIDIA 关于此错误的文档

在远程机器上进行性能分析#

如果您想要分析的 JAX 程序正在远程机器上运行,一个选项是在远程机器上运行上述所有说明(特别是,在远程机器上启动 TensorBoard 服务器),然后使用 SSH 本地端口转发从本地机器访问 TensorBoard Web UI。使用以下 SSH 命令将默认 TensorBoard 端口 6006 从本地转发到远程机器

ssh -L 6006:localhost:6006 <remote server address>

或者如果您使用的是 Google Cloud

$ gcloud compute ssh <machine-name> -- -L 6006:localhost:6006

多个 TensorBoard 安装#

如果启动 TensorBoard 失败并出现类似以下的错误:ValueError: Duplicate plugins for name projector

这通常是由于安装了两个版本的 TensorBoard 和/或 TensorFlow(例如,tensorflowtf-nightlytensorboardtb-nightly pip 包都包含 TensorBoard)。卸载单个 pip 包可能会导致 tensorboard 可执行文件被删除,然后难以替换,因此可能需要卸载所有内容并重新安装单个版本

pip uninstall tensorflow tf-nightly tensorboard tb-nightly
pip install tensorflow

Nsight#

NVIDIA 的 Nsight 工具可用于跟踪和分析 GPU 上的 JAX 代码。有关详细信息,请参阅 Nsight 文档