システムメトリクスリファレンス - Weights & Biases Documentation

このページでは、W&B SDK でトラッキングされるシステムメトリクスについて詳しく説明します。

wandb は 15 秒ごとにシステムメトリクスを自動的にログします。

システムメトリクスを表示する

W&B App または wandb beta leet のターミナル UI を使用して、システムメトリクスを表示および監視できます。

App
LEET

W&B App でシステムメトリクスを表示するには、次の手順に従います。

W&B App で対象のプロジェクトにアクセスします。
Runs 表から run を選択します。
Workspace で、次のグラフが表示される System セクションを探します。
- GPU 使用率とメモリ
- CPU 使用率
- メモリ使用率
- ディスク I/O
- ネットワークトラフィック

Workspace にパネルを追加すると、表示するシステムメトリクスをカスタマイズできます。可視化の作成方法やカスタマイズの詳細については、Panels を参照してください。

wandb beta leet のターミナル UI を使用してターミナルで run のシステムメトリクスを表示するには、次の手順に従います。

スクリプトからローカルで run を開始した場合は、コードを実行したディレクトリにアクセスします。そこには、run ごとのサブディレクトリを含む wandb/ ディレクトリと、latest-run/ へのシンボリックリンクがあります。各 run ディレクトリには、run-<run-ID>.wandb 形式の名前を持つトランザクションログが含まれています。ローカルで run を開始しておらず、代わりに .wandb トランザクションログファイルをダウンロードした場合は、その場所を控えておいてください。

次のいずれかのコマンドを使用して wandb beta leet を起動します。

# ./wandb/latest-run/ に保存されている最新の run を表示
wandb beta leet

# run ディレクトリを指定
wandb beta leet ./wandb/run-20250813_124246-n67z9ude

# .wandb ファイルを指定
wandb beta leet ./wandb/run-20250813_124246-n67z9ude/run-n67z9ude.wandb

LEET では 右側のサイドバー にシステムメトリクスが表示され、次の内容を確認できます。

GPU 使用率 (%) とメモリ使用量 (GB)
CPU 使用率
RAM 使用量 (GB)
ディスク I/O
ネットワークアクティビティ

まずは次のキーボードショートカットを使ってみてください。

h または ? - すべてのキーボードショートカットを表示
/ - パターンでメトリクスをフィルター
[ / ] - 左右のサイドバーを切り替え
n / N - メトリクスのページ間を移動
q / CMD+C - 終了

詳細については、wandb beta leet を参照してください。

CPU

プロセス CPU 使用率 (CPU)

プロセスの CPU 使用率の割合を、使用可能な CPU 数で正規化した値です。 W&B はこのメトリクスに cpu タグを付与します。

プロセスの CPU スレッド数

プロセスが使用するスレッド数です。 W&B はこのメトリクスに proc.cpu.threads タグを付与します。

ディスク

デフォルトでは、/ パスの使用状況メトリクスが収集されます。監視対象のパスを設定するには、次の設定を使用します。

run = wandb.init(
    settings=wandb.Settings(
        x_stats_disk_paths=("/System/Volumes/Data", "/home", "/mnt/data"),
    ),
)

ディスク使用率 (%)

指定したパスにおけるシステム全体のディスク使用率を、パーセンテージで表します。 W&B はこのメトリクスに disk.{path}.usagePercent タグを付与します。

ディスク使用量

指定したパスにおけるシステム全体のディスク使用量を、ギガバイト (GB) 単位で表します。アクセス可能なパスがサンプリングされ、各パスのディスク使用量 (GB) がサンプルに追加されます。 W&B はこのメトリクスに disk.{path}.usageGB タグを付与します。

Disk In

システム全体のディスク読み込み量の合計をメガバイト (MB) 単位で示します。最初のサンプル取得時に、初期のディスク読み込みバイト数が記録されます。以降のサンプルでは、現在の読み込みバイト数と初期値の差分を計算します。 W&B はこのメトリクスに disk.in タグを割り当てます。

Disk Out

システム全体のディスク書き込み総量をメガバイト (MB) 単位で表します。 Disk In と同様に、最初のサンプル取得時に初期のディスク書き込みバイト数が記録されます。以降のサンプルでは、現在の書き込みバイト数と初期値との差分が計算されます。 W&B はこのメトリクスに disk.out タグを割り当てます。

メモリ

プロセスメモリ RSS

プロセスのメモリ常駐セットサイズ (RSS) をメガバイト (MB) 単位で表します。RSS は、プロセスが占有しているメモリのうち、主記憶装置 (RAM) に保持されている部分です。 W&B はこのメトリクスに proc.memory.rssMB タグを割り当てます。

プロセスのメモリ使用率

プロセスのメモリ使用量が、利用可能な総メモリに対して占める割合を示します。 W&B はこのメトリクスに proc.memory.percent タグを割り当てます。

メモリ使用率

システム全体のメモリ使用量を、利用可能な総メモリに対する割合 (パーセンテージ) で表します。 W&B はこのメトリクスに memory_percent タグを付与します。

利用可能なメモリ

システムで利用可能なメモリの合計をメガバイト (MB) 単位で示します。 W&B はこのメトリクスに proc.memory.availableMB タグを付与します。

ネットワーク

ネットワーク送信

ネットワーク経由で送信された総バイト数を表します。最初に送信されたバイト数は、メトリクスの初回初期化時に記録されます。以降のサンプルでは、現在の送信バイト数と初期値との差分が計算されます。 W&B はこのメトリクスに network.sent タグを付与します。

ネットワーク受信量

ネットワーク経由で受信した合計バイト数を示します。ネットワーク送信量と同様に、受信バイト数の初期値はメトリクスが最初に初期化された時点で記録されます。以降のサンプルでは、現在の受信バイト数と初期値との差分が計算されます。 W&B はこのメトリクスに network.recv タグを割り当てます。

NVIDIA GPU

以下で説明するメトリクスに加えて、プロセスおよび/またはその子プロセス以下が特定の GPU を使用している場合、W&B は対応するメトリクスを gpu.process.{gpu_index}.{metric_name} として収集します

GPUメモリ使用率

各GPUのメモリ使用率をパーセントで示します。 W&B はこのメトリクスに gpu.{gpu_index}.memory タグを割り当てます。

GPU メモリ割り当て率

各 GPU について、使用可能な総メモリに対して割り当て済みの GPU メモリの割合を示します。 W&B はこのメトリクスに gpu.{gpu_index}.memoryAllocated タグを割り当てます。

GPU メモリ割り当て量 (バイト)

各 GPU について、割り当てられた GPU メモリ量をバイト単位で指定します。 W&B はこのメトリクスに gpu.{gpu_index}.memoryAllocatedBytes タグを付与します。

GPU 使用率

各 GPU の使用率をパーセントで示します。このメトリクスには、W&B によって gpu.{gpu_index}.gpu タグが割り当てられます。

GPU 温度

各GPUの温度 (摂氏) です。 W&Bでは、このメトリクスに gpu.{gpu_index}.temp タグが割り当てられます。

GPU 電力使用量 (ワット)

各GPUの電力使用量をワット単位で示します。 W&B はこのメトリクスに gpu.{gpu_index}.powerWatts タグを付与します。

GPU 電力使用率

各 GPU について、GPU の消費電力がその電力容量に対して占める割合をパーセンテージで示します。 W&B はこのメトリクスに gpu.{gpu_index}.powerPercent タグを割り当てます。

GPU SM クロック速度

GPU 上の Streaming Multiprocessor (SM) のクロック速度を MHz 単位で表します。このメトリクスは、計算処理を担う GPU コア内の処理速度の目安となります。 W&B はこのメトリクスに gpu.{gpu_index}.smClock タグを割り当てます。

GPUメモリクロック速度

GPUメモリのクロック速度を MHz 単位で表します。これは、GPUメモリと処理コア間のデータ転送速度に影響します。 W&B はこのメトリクスに gpu.{gpu_index}.memoryClock タグを割り当てます。

GPU グラフィックスクロック速度

GPU でグラフィックスを描画する際のベースクロック速度を表し、MHz 単位で示されます。このメトリクスは、可視化やレンダリングのタスク中のパフォーマンスを反映することがよくあります。 W&B はこのメトリクスに gpu.{gpu_index}.graphicsClock タグを割り当てます。

GPU 訂正済みメモリエラー

GPU 上で発生したメモリエラーのうち、W&B がエラーチェック機構によって自動的に訂正した件数をトラッキングします。これは、回復可能なハードウェアの問題を示します。 W&B はこのメトリクスに gpu.{gpu_index}.correctedMemoryErrors タグを割り当てます。

GPU の訂正不能メモリエラー

GPU 上で発生した訂正不能なメモリエラー数をトラッキングします。これは回復不能なエラーを示し、処理の信頼性に影響する可能性があります。 W&B はこのメトリクスに gpu.{gpu_index}.unCorrectedMemoryErrors タグを割り当てます。

GPU エンコーダー使用率

GPU のビデオエンコーダーの使用率 (％) を表します。エンコード処理 (たとえば動画レンダリング) の実行中に、どの程度負荷がかかっているかを示します。 W&B はこのメトリクスに gpu.{gpu_index}.encoderUtilization タグを割り当てます。

AMD GPU

W&B は、AMD が提供する rocm-smi ツールの出力 (rocm-smi -a --json) からメトリクスを抽出します。 ROCm の 6.x (最新版) および 5.x の形式がサポートされています。ROCm の形式の詳細については、AMD ROCm ドキュメントを参照してください。新しい形式には、より詳細な情報が含まれています。

AMD GPU 使用率

各 AMD GPU デバイスの GPU 使用率をパーセントで示します。 W&B はこのメトリクスに gpu.{gpu_index}.gpu タグを割り当てます。

AMD GPU メモリ割り当て率

各 AMD GPU デバイスで、使用可能な総メモリに対して割り当てられている GPU メモリの割合を示します。 W&B はこのメトリクスに gpu.{gpu_index}.memoryAllocated タグを割り当てます。

AMD GPU 温度

各 AMD GPU デバイスの GPU 温度 (摂氏) 。 W&B はこのメトリクスに gpu.{gpu_index}.temp タグを付与します。

AMD GPU 電力使用量 (ワット)

各 AMD GPU デバイスの GPU 電力使用量 (ワット単位) です。 W&B はこのメトリクスに gpu.{gpu_index}.powerWatts タグを付与します。

AMD GPU 電力使用率

各 AMD GPU デバイスについて、電力容量に対する GPU の消費電力の割合を示します。 W&B は、このメトリクスに gpu.{gpu_index}.powerPercent という名前を割り当てます。

Apple ARM MacのGPU

Apple GPU 使用率

ARM Mac に搭載された Apple GPU デバイスの GPU 使用率をパーセント (%) で示します。 W&B では、このメトリクスに gpu.0.gpu タグが割り当てられます。

Apple GPU メモリ割り当て率

ARM Mac 上の Apple GPU デバイスで、利用可能な総メモリに占める割り当て済み GPU メモリの割合です。 W&B では、このメトリクスに gpu.0.memoryAllocated タグを割り当てます。

Apple GPU 温度

ARM Mac上のApple GPUデバイスのGPU 温度 (摂氏) です。 W&B はこのメトリクスに gpu.0.temp タグを割り当てます。

Apple GPU 電力使用量 (ワット)

ARM Mac 上の Apple GPU デバイスにおける GPU の消費電力 (ワット) です。 W&B はこのメトリクスに gpu.0.powerWatts タグを付与します。

Apple GPU 電力使用率

ARM Mac 上の Apple GPU デバイスにおける、GPU の電力容量に対する消費電力の割合です。 W&B はこのメトリクスに gpu.0.powerPercent タグを付与します。

Graphcore IPU

Graphcore IPU (Intelligence Processing Unit) は、機械知能向けの処理に特化して設計された、独自のハードウェアアクセラレータです。

IPU デバイスのメトリクス

これらのメトリクスは、特定の IPU デバイスに関するさまざまな統計情報を表します。各メトリクスには、それを識別するためのデバイス ID (device_id) とメトリクスキー (metric_key) があります。W&B はこのメトリクスに ipu.{device_id}.{metric_key} タグを割り当てます。メトリクスは独自の gcipuinfo ライブラリを使用して抽出されます。このライブラリは Graphcore’s gcipuinfo バイナリとやり取りします。sample method は、プロセス ID (pid) に関連付けられた各 IPU デバイスのこれらのメトリクスを取得します。冗長なデータの logging を避けるため、時間の経過とともに変化するメトリクス、またはデバイスのメトリクスを初めて取得したときのみログされます。各メトリクスでは、parse_metric method を使用して、生の文字列表現からメトリクスの値を抽出します。次に、これらのメトリクスは aggregate method を使用して複数のサンプルにわたって集計されます。以下に、利用可能なメトリクスとその単位を示します。

Average Board Temperature (average board temp (C)): 摂氏で表した IPU ボードの温度。
Average Die Temperature (average die temp (C)): 摂氏で表した IPU ダイの温度。
Clock Speed (clock (MHz)): MHz 単位の IPU のクロック速度。
IPU Power (ipu power (W)): ワット単位の IPU の消費電力。
IPU Utilization (ipu utilisation (%)): IPU 使用率の割合。
IPU Session Utilization (ipu utilisation (session) (%)): 現在のセッションに固有の IPU 使用率の割合。
Data Link Speed (speed (GT/s)): 1 秒あたりギガトランスファー数で表したデータ転送速度。

Google Cloud TPU

Tensor Processing Unit (TPU) は、Google が独自に開発した ASIC (特定用途向け集積回路) で、機械学習のワークロードを高速化するために使用されます。

レポートされる正確なメトリクスは、v4、v5e、v5p、v6e、7x などの TPU チップ世代やランタイム環境によって異なります。

利用可能なメトリクスとその定義の詳細については、Google Cloud TPU ドキュメントのサポートされるメトリクスを参照してください。

TPU Compute メトリクス

tpu.{tpu_index}.tensorcoreUtilization: デバイスごとの TensorCore 使用率 (%) です。TensorCore の計算ユニットが十分に活用されているかどうかを最も直接的に示すメトリクスです。
tpu.{tpu_index}.dutyCycle: サンプル期間中にアクセラレータの TensorCore が実際に処理を行っていた時間の割合です。このメトリクスはチップ単位で報告され、複数デバイスを持つチップではそのすべてのデバイスに展開されます。値が高いほど、TensorCore がより有効に活用されていることを示します。

TPU メモリメトリクス

tpu.{tpu_index}.hbmCapacityTotal: デバイスごとの High Bandwidth Memory (HBM) の総容量 (バイト単位) 。
tpu.{tpu_index}.hbmCapacityUsage: デバイスごとの現在の HBM 使用量 (バイト単位) 。

TPU インターコネクトの健全性

tpu.{tpu_index}.iciLinkHealth: デバイスごとの Inter-Chip Interconnect (ICI) リンクの健全性です。このメトリクスは、libtpu SDK パス経由でのみ利用できます。

TPU 転送レイテンシ

レイテンシ分布の単位はマイクロ秒です。報告される統計値には、平均、p50、p90、p95、p999 が含まれる場合があります。これらのメトリクスは、マルチスライス TPU pod の設定で特に関連性があります。

tpu.bufferTransferLatency.{label}.{stat}Us: スライス間の DCN (Data Center Network) バッファ転送レイテンシ。
tpu.inboundBufferTransferLatency.{label}.{stat}Us: 受信 DCN バッファ転送レイテンシ。
tpu.hostToDeviceTransferLatency.{label}.{stat}Us: ホストからデバイスへのデータ転送レイテンシ。
tpu.deviceToHostTransferLatency.{label}.{stat}Us: デバイスからホストへのデータ転送レイテンシ。

TPU 集合通信

tpu.collectiveE2ELatency.{label}.{stat}Us: all-reduce や all-gather などの集合演算におけるエンドツーエンドのレイテンシ。
tpu.hostComputeLatency.{label}.{stat}Us: MXLA の計算レイテンシを含む、ホスト側の計算レイテンシ。

TPU ネットワークメトリクス

tpu.grpcTcpMinRtt.{stat}Us: gRPC 接続の TCP の最小ラウンドトリップ時間。
tpu.grpcTcpDeliveryRate.{stat}Mbps: gRPC 接続の TCP 配信レート (メガビット/秒) 。

TPU HLO 実行メトリクス

tpu.hloExecTiming.{label}.{stat}Us: HLO (High Level Operations) の実行時間分布をマイクロ秒単位で表します。このメトリクスは、オペレーションごとの実行時間を示します。
tpu.hloQueueSize.{label}: HLO 実行キューの現在のサイズです。このメトリクスは、実行待ちのオペレーション数を示します。

AWS Trainium

AWS Trainium は、機械学習ワークロードの高速化に特化した、AWS 提供の専用ハードウェアプラットフォームです。AWS の neuron-monitor ツールを使用して、AWS Trainium のメトリクスを取得します。

Trainium Neuron Core 使用率

各 NeuronCore の使用率が、コア単位で報告されます。 W&B はこのメトリクスに trn.{core_index}.neuroncore_utilization タグを付与します。

Trainium ホストの合計メモリ使用量

ホストの総メモリ使用量をバイト単位で示します。 W&B はこのメトリクスに trn.host_total_memory_usage タグを付与します。

Trainium Neuron デバイスの総メモリ使用量

Neuron デバイスの合計メモリ使用量をバイト単位で示します。 W&B はこのメトリクスに trn.neuron_device_total_memory_usage) タグを割り当てます。

Trainium ホストメモリ使用量の内訳:

以下は、ホスト上のメモリ使用量の内訳です。

アプリケーションメモリ (trn.host_total_memory_usage.application_memory): アプリケーションが使用するメモリ。
定数 (trn.host_total_memory_usage.constants): 定数用のメモリ。
DMA バッファ (trn.host_total_memory_usage.dma_buffers): Direct Memory Access バッファに使用されるメモリ。
テンソル (trn.host_total_memory_usage.tensors): テンソルに使用されるメモリ。

Trainium NeuronCore のメモリ使用量の内訳

各 NeuronCore のメモリ使用量の詳細:

定数 (trn.{core_index}.neuroncore_memory_usage.constants)
モデルコード (trn.{core_index}.neuroncore_memory_usage.model_code)
モデル共有スクラッチパッド (trn.{core_index}.neuroncore_memory_usage.model_shared_scratchpad)
ランタイムメモリ (trn.{core_index}.neuroncore_memory_usage.runtime_memory)
テンソル (trn.{core_index}.neuroncore_memory_usage.tensors)

OpenMetrics

OpenMetrics / Prometheus 互換データを公開している外部エンドポイントからメトリクスを取得してログできます。取得するエンドポイントに適用する、正規表現ベースのカスタムメトリクスフィルターにも対応しています。 NVIDIA DCGM-Exporter を使用して GPU クラスタのパフォーマンスを監視するケースでこの機能をどのように使うかについては、詳しい例として W&B で GPU クラスタのパフォーマンスを監視するを参照してください。

Guides

Integrations

Reference

​システムメトリクスを表示する

​CPU

​プロセス CPU 使用率 (CPU)

​プロセスの CPU スレッド数

​ディスク

​ディスク使用率 (%)

​ディスク使用量

​Disk In

​Disk Out

​メモリ

​プロセスメモリ RSS

​プロセスのメモリ使用率

​メモリ使用率

​利用可能なメモリ

​ネットワーク

​ネットワーク送信

​ネットワーク受信量

​NVIDIA GPU

​GPUメモリ使用率

​GPU メモリ割り当て率

​GPU メモリ割り当て量 (バイト)

​GPU 使用率

​GPU 温度

​GPU 電力使用量 (ワット)

​GPU 電力使用率

​GPU SM クロック速度

​GPUメモリクロック速度

​GPU グラフィックスクロック速度

​GPU 訂正済みメモリエラー

​GPU の訂正不能メモリエラー

​GPU エンコーダー使用率

​AMD GPU

​AMD GPU 使用率

​AMD GPU メモリ割り当て率

​AMD GPU 温度

​AMD GPU 電力使用量 (ワット)

​AMD GPU 電力使用率

​Apple ARM MacのGPU

​Apple GPU 使用率

​Apple GPU メモリ割り当て率

​Apple GPU 温度

​Apple GPU 電力使用量 (ワット)

​Apple GPU 電力使用率

​Graphcore IPU

​IPU デバイスのメトリクス

​Google Cloud TPU

​TPU Compute メトリクス

​TPU メモリメトリクス

​TPU インターコネクトの健全性

​TPU 転送レイテンシ

​TPU 集合通信

​TPU ネットワーク メトリクス

​TPU HLO 実行メトリクス

​AWS Trainium

​Trainium Neuron Core 使用率

​Trainium ホストの合計メモリ使用量

​Trainium Neuron デバイスの総メモリ使用量

​Trainium ホストメモリ使用量の内訳:

​Trainium NeuronCore のメモリ使用量の内訳

​OpenMetrics

システムメトリクスを表示する

CPU

プロセス CPU 使用率 (CPU)

プロセスの CPU スレッド数

ディスク

ディスク使用率 (%)

ディスク使用量

Disk In

Disk Out

メモリ

プロセスメモリ RSS

プロセスのメモリ使用率

メモリ使用率

利用可能なメモリ

ネットワーク

ネットワーク送信

ネットワーク受信量

NVIDIA GPU

GPUメモリ使用率

GPU メモリ割り当て率

GPU メモリ割り当て量 (バイト)

GPU 使用率

GPU 温度

GPU 電力使用量 (ワット)

GPU 電力使用率

GPU SM クロック速度

GPUメモリクロック速度

GPU グラフィックスクロック速度

GPU 訂正済みメモリエラー

GPU の訂正不能メモリエラー

GPU エンコーダー使用率

AMD GPU

AMD GPU 使用率

AMD GPU メモリ割り当て率

AMD GPU 温度

AMD GPU 電力使用量 (ワット)

AMD GPU 電力使用率

Apple ARM MacのGPU

Apple GPU 使用率

Apple GPU メモリ割り当て率

Apple GPU 温度

Apple GPU 電力使用量 (ワット)

Apple GPU 電力使用率

Graphcore IPU

IPU デバイスのメトリクス

Google Cloud TPU

TPU Compute メトリクス

TPU メモリメトリクス

TPU インターコネクトの健全性

TPU 転送レイテンシ

TPU 集合通信

TPU ネットワークメトリクス

TPU HLO 実行メトリクス

AWS Trainium

Trainium Neuron Core 使用率

Trainium ホストの合計メモリ使用量

Trainium Neuron デバイスの総メモリ使用量

Trainium ホストメモリ使用量の内訳:

Trainium NeuronCore のメモリ使用量の内訳

OpenMetrics