1 - ユーザー設定を管理する
プロフィール情報、アカウントのデフォルト設定、アラート、ベータ版製品への参加、GitHub インテグレーション、ストレージ使用量、アカウントの有効化、チームの作成をユーザー設定で管理します。
ナビゲートして、 ユーザープロフィールページに移動し、右上のユーザーアイコンを選択します。 ドロップダウンメニューから、Settings を選択します。
Profile
Profile セクションでは、アカウント名と所属機関を管理および変更できます。オプションで、経歴、所在地、個人や所属機関のウェブサイトのリンクを追加したり、プロフィール画像をアップロードしたりできます。
イントロの編集
イントロを編集するには、プロフィールの上部にある Edit をクリックします。 開く WYSIWYG エディターは Markdown をサポートしています。
- 行を編集するには、それをクリックします。 時間を短縮するために、
/
を入力し、リストから Markdown を選択できます。
- アイテムのドラッグハンドルを使って移動します。
- ブロックを削除するには、ドラッグハンドルをクリックしてから Delete をクリックします。
- 変更を保存するには、Save をクリックします。
SNS バッジの追加
@weights_biases
アカウントのフォローバッジを X に追加するには、HTML の <img>
タグを含む Markdown スタイルのリンクを追加します。そのバッジ画像にリンクさせます。

<img>
タグでは、width
、height
、またはその両方を指定できます。どちらか一方だけを指定すると、画像の比率は維持されます。
Teams
Team セクションで新しいチームを作成します。 新しいチームを作成するには、New team ボタンを選択し、次の情報を提供します。
- Team name - チームの名前。チーム名はユニークでなければなりません。チーム名は変更できません。
- Team type - Work または Academic ボタンを選択します。
- Company/Organization - チームの会社または組織の名前を提供します。 ドロップダウンメニューから会社または組織を選択します。 オプションで新しい組織を提供することもできます。
管理者アカウントのみがチームを作成できます。
ベータ機能
Beta Features セクションでは、開発中の新製品の楽しいアドオンやプレビューをオプションで有効にできます。有効にしたいベータ機能の横にある切り替えスイッチを選択します。
アラート
Runs がクラッシュしたり、終了したり、カスタムアラートを設定した際に通知を受け取ります。wandb.alert() を使用して電子メールまたは Slack 経由で通知を受け取ります。受け取りたいアラートイベントタイプの横にあるスイッチを切り替えます。
- Runs finished: Weights and Biases の run が正常に完了したかどうか。
- Run crashed: run が終了しなかった場合の通知。
アラートの設定と管理方法の詳細については、Send alerts with wandb.alert を参照してください。
個人 GitHub インテグレーション
個人の Github アカウントを接続します。 Github アカウントを接続するには:
- Connect Github ボタンを選択します。これにより、オープン認証(OAuth)ページにリダイレクトされます。
- Organization access セクションでアクセスを許可する組織を選択します。
- Authorize wandb を選択します。
アカウントの削除
アカウントを削除するには、Delete Account ボタンを選択します。
アカウントの削除は元に戻せません。
ストレージ
Storage セクションでは、Weights and Biases サーバーにおけるアカウントの総メモリ使用量について説明しています。 デフォルトのストレージプランは 100GB です。ストレージと料金の詳細については、Pricing ページをご覧ください。
2 - 請求設定を管理する
組織の請求設定を管理する
ナビゲートして ユーザー プロフィール ページ へ行き、右上隅の ユーザー アイコン を選択します。ドロップダウンから Billing を選択するか、Settings を選択してから Billing タブを選択してください。
プランの詳細
プランの詳細 セクションは、あなたの組織の現在のプラン、料金、制限、使用状況を要約します。
- ユーザーの詳細とリストについては、Manage users をクリックしてください。
- 使用状況の詳細については、View usage をクリックしてください。
- あなたの組織が使用するストレージの量(無料と有料の両方)。ここから追加のストレージを購入したり、現在使用中のストレージを管理したりできます。storage settings についての詳細を学んでください。
ここから、プランを比較したり、営業と話をすることができます。
プランの使用量
このセクションでは現在の使用状況を視覚的に要約し、今後の使用料金を表示します。使用量の月ごとの詳細を知るには、個々のタイルで View usage をクリックしてください。カレンダー月、チーム、プロジェクトごとの使用量をエクスポートするには、Export CSV をクリックしてください。
使用状況アラート
有料プランを使用している組織の場合、管理者は特定のしきい値に達したときに 1 回の請求期間ごとに 電子メールでアラートを受け取ります。billing admin である場合は組織の制限を増やす方法の詳細情報と、そうでない場合の billing admin への連絡方法を提供します。Pro plan では、billing admin のみが使用状況アラートを受け取ります。
これらのアラートは設定可能ではなく、以下の場合に送信されます:
- 組織が月ごとの使用カテゴリの制限に近づいたとき (85% の使用時間)、およびプランに基づいて 100% の制限に達したとき。
- 請求期間中の組織の累積平均料金が以下のしきい値を超えると、$200、$450、$700、$1000。これらの追加料金は、追跡時間、ストレージ、または Weave データの取り込みでプランに含まれる以上の使用が組織で積み重なると発生します。
使用状況や請求に関する質問については、アカウントチームまたはサポートにお問い合わせください。
支払い方法
このセクションでは、組織に登録されている支払い方法を表示します。支払い方法を追加していない場合、プランをアップグレードするか、有料ストレージを追加するときに追加を求められます。
Billing admin
このセクションでは、現在の billing admin を表示します。billing admin は組織の管理者であり、すべての請求関連メールを受信し、支払い方法を表示および管理することができます。
W&B Dedicated Cloud では、複数のユーザーが billing admins になることができます。W&B Multi-tenant Cloud では、一度に一人のユーザーのみが billing admin になることができます。
billing admin を変更するか、追加の users に役割を割り当てるには:
- Manage roles をクリックします。
- ユーザーを検索します。
- そのユーザーの行の Billing admin フィールドをクリックします。
- 要約を読んでから、Change billing user をクリックします。
請求書
クレジットカードによる支払いを行う場合、このセクションでは月ごとの請求書を表示できます。
- 銀行振込で支払う Enterprise アカウントの場合、このセクションは空白です。質問については、アカウントチームにお問い合わせください。
- 組織に請求がない場合、請求書は生成されません。
3 - チーム設定を管理する
チーム設定ページでチームのメンバー、アバター、アラート、プライバシー設定を管理します。
チーム設定
チームの設定を変更します。メンバー、アバター、通知、プライバシー、利用状況を含みます。組織の管理者およびチームの管理者は、チームの設定を表示および編集できます。
チーム設定を変更したり、チームからメンバーを削除できるのは、管理アカウントタイプのみです。
メンバー
メンバーセクションでは、保留中の招待と、チームに参加する招待を受け入れたメンバーのリストを表示します。各メンバーのリストには、メンバーの名前、ユーザー名、メール、チームの役割、および Models や Weave へのアクセス権限が表示されます。これらは組織から継承されます。標準のチーム役割 Admin、Member、View-only から選択できます。組織が カスタムロールの作成をしている場合、カスタムロールを割り当てることもできます。
チームの作成、管理、およびチームのメンバーシップと役割の管理についての詳細は、Add and Manage Teams を参照してください。新しいメンバーを招待できる人や、チームの他のプライバシー設定を設定するには、プライバシー を参照してください。
アバター
Avatar セクションに移動して画像をアップロードすることで、アバターを設定します。
- Update Avatar を選択し、ファイルダイアログを表示します。
- ファイルダイアログから使用したい画像を選択します。
アラート
run がクラッシュしたり、完了したり、カスタムアラートを設定したりしたときにチームに通知します。チームは、メールまたは Slack を通じてアラートを受け取ることができます。
受け取りたいイベントタイプの横にあるスイッチを切り替えます。Weights and Biases はデフォルトで以下のイベントタイプオプションを提供します:
- Runs finished: Weights and Biases の run が正常に完了したかどうか。
- Run crashed: run が完了できなかった場合。
アラートの設定と管理についての詳細は、wandb.alert を使用したアラートの送信 を参照してください。
Slack 通知
Slack の送信先を設定し、チームのオートメーションが、新しいアーティファクトが作成されたときや、run のメトリックが設定された閾値に達したときなどに Registry やプロジェクトでイベントが発生すると通知を送信できるようにします。Slack オートメーションの作成を参照してください。
This feature is available for all Enterprise licenses.
ウェブフック
チームのオートメーションが、新しいアーティファクトが作成されたときや、run のメトリックが設定された閾値に達したときなどに Registry やプロジェクトでイベントが発生すると動作するようにウェブフックを設定します。Webhook オートメーションの作成を参照してください。
This feature is available for all Enterprise licenses.
プライバシー
Privacy セクションに移動してプライバシー設定を変更します。プライバシー設定を変更できるのは組織の管理者のみです。
- 今後のプロジェクトを公開したり、レポートを公開で共有したりする機能をオフにします。
- チームの管理者だけでなく、どのチームメンバーも他のメンバーを招待できます。
- デフォルトでコードの保存がオンになっているかどうかを管理します。
使用状況
Usage セクションでは、チームが Weights and Biases サーバーで消費した合計メモリ使用量について説明します。デフォルトのストレージプランは100GBです。ストレージと価格についての詳細は、Pricing ページを参照してください。
ストレージ
Storage セクションでは、チームのデータに対して使用されるクラウドストレージバケットの設定を説明します。詳細は Secure Storage Connector を参照するか、セルフホスティングしている場合は W&B Server ドキュメントをチェックしてください。
4 - メール設定を管理する
Settings ページからメールを管理します。
Add, delete, manage email types and primary email addresses in your W&B プロファイル 設定 ページ. Select your profile icon in the upper right corner of the W&B ダッシュボード. From the dropdown, select 設定. Within the 設定 ページ, scroll down to the Emails ダッシュボード:
プライマリーメール の管理
プライマリーメール は 😎 絵文字でマークされています。プライマリーメール は、W&B アカウントを作成する際に提供したメールで自動的に定義されます。
Weights And Biases アカウント に関連付けられている プライマリーメール を変更するには、ケバブ ドロップダウン を選択します:
確認済みのメールのみを プライマリー として設定できます
メールを追加
+ Add Email を選択して、メールを追加します。これにより、Auth0 ページに移動します。新しいメールの資格情報を入力するか、シングル サインオン (SSO) を使用して接続できます。
メールを削除
ケバブ ドロップダウン を選択し、Delete Emails を選択して、W&B アカウント に登録されているメールを削除します
プライマリーメール は削除できません。削除する前に、別のメールを プライマリー として設定する必要があります。
ログイン メソッド
ログイン メソッド 列には、アカウントに関連付けられているログイン メソッド が表示されます。
W&B アカウントを作成すると、確認メールがアカウント に送信されます。メール アドレス を確認するまで、メール アカウント は確認されていないと見なされます。未確認のメールは赤で表示されます。
元の確認メールがメール アカウントに送信されていない場合、もう一度メール アドレスでログインを試みて、2 回目の確認メールを取得してください。
アカウントのログインの問題がある場合は、support@wandb.com にお問い合わせください。
5 - チームを管理する
チーム全体で同僚と共同作業を行い、結果を共有し、すべての実験を追跡します。
W&B Teams を使用して、あなたの ML チームのための中心的なワークスペースを作り、モデルをより迅速に構築しましょう。
- チームが試した全ての実験管理を追跡し、作業の重複を防ぎます。
- 以前にトレーニングしたモデルを保存し再現します。
- 進捗や成果を上司やコラボレーターと共有します。
- リグレッションをキャッチし、パフォーマンスが低下したときにすぐに通知を受け取ります。
- モデルの性能をベンチマークし、モデルのバージョンを比較します。
協力的なチームを作成する
- サインアップまたはログインして、無料の W&B アカウントを取得します。
- ナビゲーションバーで チームを招待 をクリックします。
- チームを作成し、コラボレーターを招待します。
- チームの設定については、チーム設定の管理を参照してください。
注意: 組織の管理者のみが新しいチームを作成できます。
チームプロフィールを作成する
あなたのチームのプロフィールページをカスタマイズして、イントロダクションを示したり、公開されているまたはチームメンバーに表示されるレポートやプロジェクトを見せることができます。レポート、プロジェクト、外部リンクを提示します。
- 最良の研究を強調表示し、訪問者にあなたの最良の公開レポートを見せる
- 最もアクティブなプロジェクトを披露し、チームメイトがそれらを見つけやすくする
- あなたの会社や研究室のウェブサイトや公開した論文への外部リンクを追加することで コラボレーターを見つける
チームメンバーを削除する
チーム管理者はチーム設定ページを開き、去るメンバーの名前の横にある削除ボタンをクリックします。チームにログされている run はユーザーが去った後も留まります。
チームの役割と権限を管理する
同僚をチームに招待するときにチームの役割を選択します。以下のチームの役割オプションがあります:
- 管理者: チーム管理者は他の管理者やチームメンバーを追加および削除できます。すべてのプロジェクトを変更する権限と完全な削除権限を持っています。これには、run、プロジェクト、Artifacts、スイープの削除が含まれますが、これに限定されません。
- メンバー: チームの通常のメンバーです。デフォルトでは、管理者のみがチームメンバーを招待できます。この振る舞いを変更するには、チーム設定の管理を参照してください。
チームメンバーは自分が作成した run のみを削除できます。メンバー A と B がいるとします。メンバー B が team B のプロジェクトからメンバー A が所有する別のプロジェクトに run を移動します。メンバー A は、メンバー B がメンバー A のプロジェクトに移動した run を削除できません。管理者は、チームメンバーによって作成された run およびスイープ run を管理できます。
- 閲覧のみ (エンタープライズ限定機能): 閲覧のみのメンバーは、run、レポート、ワークスペースのようなチーム内のアセットを閲覧できます。彼らはレポートを追跡し、コメントを残すことができますが、プロジェクト概要、レポート、run を作成、編集、または削除することはできません。
- カスタム役割 (エンタープライズ限定機能): カスタム役割は、組織管理者が 閲覧のみ または メンバー のいずれかの役割に基づいて新しい役割を作成し、より詳細なアクセス制御を実現するための追加の権限と共にそれを構成させます。その後、チーム管理者がそれぞれのチームのユーザーにこれらのカスタム役割を割り当てることができます。詳細については、Introducing Custom Roles for W&B Teams を参照してください。
- サービスアカウント (エンタープライズ限定機能): Use service accounts to automate workflows を参照してください。
W&B は、チームに複数の管理者を持つことをお勧めします。主要な管理者が不在のときに管理操作を継続できることを保証するためのベストプラクティスです。
チーム設定
チーム設定では、チームとそのメンバーのための設定を管理できます。これらの特権により、W&B 内でチームを効果的に監督および整理できます。
権限 |
閲覧のみ |
チームメンバー |
チーム管理者 |
チームメンバーを追加 |
|
|
X |
チームメンバーを削除 |
|
|
X |
チーム設定を管理 |
|
|
X |
レジストリ
以下の表は、特定のチーム全体で適用されるすべてのプロジェクトに関連する権限を示しています。
権限 |
閲覧のみ |
チームメンバー |
レジストリ管理者 |
チーム管理者 |
エイリアスを追加する |
|
X |
X |
X |
モデルをレジストリに追加する |
|
X |
X |
X |
レジストリ内のモデルを閲覧する |
X |
X |
X |
X |
モデルをダウンロードする |
X |
X |
X |
X |
レジストリ管理者を追加または削除する |
|
|
X |
X |
保護されたエイリアスを追加または削除する |
|
|
X |
|
保護されたエイリアスの詳細については、レジストリアクセス制御 を参照してください。
レポート
レポート権限は、レポートの作成、閲覧、編集へのアクセスを許可します。以下の表は、特定のチーム全体でのすべてのレポートに適用される権限を列挙しています。
権限 |
閲覧のみ |
チームメンバー |
チーム管理者 |
レポートを閲覧する |
X |
X |
X |
レポートを作成する |
|
X |
X |
レポートを編集する |
|
X (チームメンバーは自分のレポートのみ編集できます) |
X |
レポートを削除する |
|
X (チームメンバーは自分のレポートのみ編集できます) |
X |
実験管理
以下の表は、特定のチーム全体でのすべての実験に適用される権限を示しています。
権限 |
閲覧のみ |
チームメンバー |
チーム管理者 |
実験のメタデータを閲覧する(履歴メトリクス、システムメトリクス、ファイル、およびログを含む) |
X |
X |
X |
実験パネルとワークスペースを編集する |
|
X |
X |
実験をログする |
|
X |
X |
実験を削除する |
|
X (チームメンバーは自分が作成した実験のみ削除できます) |
X |
実験を停止する |
|
X (チームメンバーは自分が作成した実験のみ停止できます) |
X |
Artifacts
以下の表は、特定のチーム全体でのすべてのアーティファクトに適用される権限を示しています。
権限 |
閲覧のみ |
チームメンバー |
チーム管理者 |
アーティファクトを閲覧する |
X |
X |
X |
アーティファクトを作成する |
|
X |
X |
アーティファクトを削除する |
|
X |
X |
メタデータを編集する |
|
X |
X |
エイリアスを編集する |
|
X |
X |
エイリアスを削除する |
|
X |
X |
アーティファクトをダウンロードする |
|
X |
X |
システム設定 (W&B サーバーのみ)
システム権限を使用して、チームとそのメンバーを作成および管理し、システム設定を調整します。これらの特権により、W&B インスタンスを効果的に管理および維持することができます。
権限 |
閲覧のみ |
チームメンバー |
チーム管理者 |
システム管理者 |
システム設定を設定する |
|
|
|
X |
チームを作成/削除する |
|
|
|
X |
チームサービスアカウントの振る舞い
- トレーニング環境でチームを設定すると、そのチームからのサービスアカウントを使用して、そのチーム内のプライベートまたはパブリックプロジェクトに run をログすることができます。さらに、環境内に WANDB_USERNAME または WANDB_USER_EMAIL 変数が存在し、参照されるユーザーがそのチームのメンバーである場合、その run をそのユーザーに割り当てることができます。
- トレーニング環境でチームを 設定せず、サービスアカウントを使用する場合、サービスアカウントの親チーム内の指定されたプロジェクトに run をログします。この場合も、環境内に WANDB_USERNAME または WANDB_USER_EMAIL 変数が存在し、参照されるユーザーがサービスアカウントの親チームのメンバーである場合、その run をそのユーザーに割り当てることができます。
- サービスアカウントは親チームとは異なるチーム内のプライベートプロジェクトに run をログすることはできません。サービスアカウントは、プロジェクトが
Open
プロジェクトの可視性に設定されている場合にのみプロジェクトにログできます。
チームトライアル
W&B プランの詳細については、価格ページを参照してください。ダッシュボード UI または Export API を利用して、いつでもすべてのデータをダウンロードできます。
プライバシー設定
チーム設定ページで、すべてのチームプロジェクトのプライバシー設定を見ることができます:
app.wandb.ai/teams/your-team-name
高度な設定
安全なストレージコネクタ
チームレベルの安全なストレージコネクタにより、チームは自分たちのクラウドストレージバケットを W&B とともに使用できます。これは、非常に機密性の高いデータまたは厳しいコンプライアンス要件を持つチームにとって、データアクセス制御およびデータ分離を向上させます。安全なストレージコネクタ を参照してください。
7 - システム メトリクス
W&B によって自動的にログされるメトリクス。
このページでは、W&B SDKによって追跡されるシステムメトリクスについての詳細情報を提供します。
wandb
は、15秒ごとに自動的にシステムメトリクスをログに記録します。
CPU
プロセスCPUパーセント (CPU)
プロセスによるCPU使用率を、利用可能なCPU数で正規化したものです。
W&Bは、このメトリクスに cpu
タグを割り当てます。
プロセスCPUスレッド
プロセスによって利用されるスレッドの数です。
W&Bは、このメトリクスに proc.cpu.threads
タグを割り当てます。
ディスク
デフォルトでは、/
パスの使用状況メトリクスが収集されます。監視するパスを設定するには、次の設定を使用します:
run = wandb.init(
settings=wandb.Settings(
x_stats_disk_paths=("/System/Volumes/Data", "/home", "/mnt/data"),
),
)
ディスク使用率パーセント
指定されたパスに対するシステム全体のディスク使用率をパーセントで表します。
W&Bは、このメトリクスに disk.{path}.usagePercent
タグを割り当てます。
ディスク使用量
指定されたパスに対するシステム全体のディスク使用量をギガバイト(GB)で表します。
アクセス可能なパスがサンプリングされ、各パスのディスク使用量(GB)がサンプルに追加されます。
W&Bは、このメトリクスに disk.{path}.usageGB
タグを割り当てます。
ディスクイン
システム全体のディスク読み込み量をメガバイト(MB)で示します。最初のサンプルが取られた時点で初期ディスク読み込みバイト数が記録されます。その後のサンプルは、現在の読み込みバイト数と初期値との差を計算します。
W&Bは、このメトリクスに disk.in
タグを割り当てます。
ディスクアウト
システム全体のディスク書き込み量をメガバイト(MB)で示します。最初のサンプルが取られた時点で初期ディスク書き込みバイト数が記録されます。その後のサンプルは、現在の書き込みバイト数と初期値との差を計算します。
W&Bは、このメトリクスに disk.out
タグを割り当てます。
メモリ
プロセスのためのメモリResident Set Size (RSS)をメガバイト(MB)で表します。RSSは、プロセスによって占有されるメモリの一部であり、主記憶(RAM)に保持されるものです。
W&Bは、このメトリクスに proc.memory.rssMB
タグを割り当てます。
プロセスメモリパーセント
プロセスのメモリ使用率を、利用可能なメモリ全体に対するパーセントで示します。
W&Bは、このメトリクスに proc.memory.percent
タグを割り当てます。
メモリパーセント
システム全体のメモリ使用率を、利用可能なメモリ全体に対するパーセントで表します。
W&Bは、このメトリクスに memory_percent
タグを割り当てます。
メモリアベイラブル
システム全体の利用可能なメモリをメガバイト(MB)で示します。
W&Bは、このメトリクスに proc.memory.availableMB
タグを割り当てます。
ネットワーク
ネットワーク送信
ネットワーク上で送信されたバイトの合計を示します。
最初にメトリクスが初期化された際に、送信されたバイトの初期値が記録されます。その後のサンプルでは、現在の送信バイト数と初期値との差を計算します。
W&Bは、このメトリクスに network.sent
タグを割り当てます。
ネットワーク受信
ネットワーク上で受信されたバイトの合計を示します。
ネットワーク送信と同様に、メトリクスが最初に初期化された際に、受信されたバイトの初期値が記録されます。後続のサンプルでは、現在の受信バイト数と初期値との差を計算します。
W&Bは、このメトリクスに network.recv
タグを割り当てます。
NVIDIA GPU
以下に説明するメトリクスに加え、プロセスおよびその子孫が特定のGPUを使用する場合、W&Bは対応するメトリクスを gpu.process.{gpu_index}.{metric_name}
としてキャプチャします。
GPUメモリ利用率
各GPUのGPUメモリ利用率をパーセントで表します。
W&Bは、このメトリクスに gpu.{gpu_index}.memory
タグを割り当てます。
GPUメモリアロケート
各GPUの全利用可能メモリに対するGPUメモリの割り当てをパーセントで示します。
W&Bは、このメトリクスに gpu.{gpu_index}.memoryAllocated
タグを割り当てます。
GPUメモリアロケートバイト
各GPUのGPUメモリ割り当てをバイト単位で指定します。
W&Bは、このメトリクスに gpu.{gpu_index}.memoryAllocatedBytes
タグを割り当てます。
GPU利用率
各GPUのGPU利用率をパーセントで示します。
W&Bは、このメトリクスに gpu.{gpu_index}.gpu
タグを割り当てます。
GPU温度
各GPUの温度を摂氏で示します。
W&Bは、このメトリクスに gpu.{gpu_index}.temp
タグを割り当てます。
GPU電力使用ワット
各GPUの電力使用量をワットで示します。
W&Bは、このメトリクスに gpu.{gpu_index}.powerWatts
タグを割り当てます。
GPU電力使用パーセント
各GPUの電力容量に対する電力使用をパーセントで示します。
W&Bは、このメトリクスに gpu.{gpu_index}.powerPercent
タグを割り当てます。
GPU SMクロックスピード
GPUのストリーミングマルチプロセッサ (SM) のクロックスピードをMHzで表します。このメトリクスは、計算タスクを担当するGPUコア内のプロセッシング速度を示唆しています。
W&Bは、このメトリクスに gpu.{gpu_index}.smClock
タグを割り当てます。
GPUメモリクロックスピード
GPUメモリのクロックスピードをMHzで表します。これは、GPUメモリと処理コア間のデータ転送速度に影響を与えます。
W&Bは、このメトリクスに gpu.{gpu_index}.memoryClock
タグを割り当てます。
GPUグラフィックスクロックスピード
GPUでのグラフィックスレンダリング操作の基本クロックスピードをMHzで示します。このメトリクスは、可視化またはレンダリングタスク中のパフォーマンスを反映することが多いです。
W&Bは、このメトリクスに gpu.{gpu_index}.graphicsClock
タグを割り当てます。
GPU訂正されたメモリエラー
W&Bが自動的にエラーチェックプロトコルを使用して訂正する、GPU上のメモリエラーのカウントを追跡します。これにより、回復可能なハードウェアの問題を示します。
W&Bは、このメトリクスに gpu.{gpu_index}.correctedMemoryErrors
タグを割り当てます。
GPU訂正されていないメモリエラー
W&Bが訂正しない、GPU上のメモリエラーのカウントを追跡します。これにより、処理の信頼性に影響を与える可能性がある回復不可能なエラーを示します。
W&Bは、このメトリクスに gpu.{gpu_index}.unCorrectedMemoryErrors
タグを割り当てます。
GPUエンコーダ利用率
GPUのビデオエンコーダの利用率をパーセントで表し、エンコーディングタスク(例えばビデオレンダリング)が実行されているときの負荷を示します。
W&Bは、このメトリクスに gpu.{gpu_index}.encoderUtilization
タグを割り当てます。
AMD GPU
W&Bは、AMDが提供する rocm-smi
ツールの出力からメトリクスを抽出します(rocm-smi -a --json
)。
ROCm 6.x (最新) および 5.x フォーマットがサポートされています。AMD ROCm ドキュメンテーションでROCmフォーマットの詳細を確認できます。新しいフォーマットにはより詳細が含まれています。
AMD GPU利用率
各AMD GPUデバイスのGPU利用率をパーセントで表します。
W&Bは、このメトリクスに gpu.{gpu_index}.gpu
タグを割り当てます。
AMD GPUメモリアロケート
各AMD GPUデバイスの全利用可能メモリに対するGPUメモリの割り当てをパーセントで示します。
W&Bは、このメトリクスに gpu.{gpu_index}.memoryAllocated
タグを割り当てます。
AMD GPU温度
各AMD GPUデバイスの温度を摂氏で示します。
W&Bは、このメトリクスに gpu.{gpu_index}.temp
タグを割り当てます。
AMD GPU電力使用ワット
各AMD GPUデバイスの電力使用量をワットで示します。
W&Bは、このメトリクスに gpu.{gpu_index}.powerWatts
タグを割り当てます。
AMD GPU電力使用パーセント
各AMD GPUデバイスの電力容量に対する電力使用をパーセントで示します。
W&Bは、このメトリクスに gpu.{gpu_index}.powerPercent
をこのメトリクスに割り当てます。
Apple ARM Mac GPU
Apple GPU利用率
特にARM Mac上のApple GPUデバイスにおけるGPU利用率をパーセントで示します。
W&Bは、このメトリクスに gpu.0.gpu
タグを割り当てます。
Apple GPUメモリアロケート
ARM Mac上のApple GPUデバイスにおける全利用可能メモリに対するGPUメモリの割り当てをパーセントで示します。
W&Bは、このメトリクスに gpu.0.memoryAllocated
タグを割り当てます。
Apple GPU温度
ARM Mac上のApple GPUデバイスの温度を摂氏で示します。
W&Bは、このメトリクスに gpu.0.temp
タグを割り当てます。
Apple GPU電力使用ワット
ARM Mac上のApple GPUデバイスの電力使用量をワットで示します。
W&Bは、このメトリクスに gpu.0.powerWatts
タグを割り当てます。
Apple GPU電力使用パーセント
ARM Mac上のApple GPUデバイスの電力容量に対する電力使用をパーセントで示します。
W&Bは、このメトリクスに gpu.0.powerPercent
タグを割り当てます。
Graphcore IPU
Graphcore IPU(インテリジェンスポロセッシングユニット)は、機械知能タスクのために特別に設計されたユニークなハードウェアアクセラレータです。
IPUデバイスメトリクス
これらのメトリクスは、特定のIPUデバイスのさまざまな統計を表します。各メトリクスには、デバイスID(device_id
)とメトリクスキー(metric_key
)があり、それを識別します。W&Bは、このメトリクスに ipu.{device_id}.{metric_key}
タグを割り当てます。
メトリクスは、Graphcore の gcipuinfo
バイナリと相互作用する専用の gcipuinfo
ライブラリを使用して抽出されます。sample
メソッドは、プロセスID(pid
)に関連する各IPUデバイスのこれらのメトリクスを取得します。時間の経過とともに変化するメトリクスまたはデバイスのメトリクスが最初に取得されたときにのみログに記録され、冗長なデータのログを回避します。
各メトリクスに対して、メトリクスの値をその生の文字列表現から抽出するために parse_metric
メソッドが使用されます。メトリクスは、複数のサンプルを通じて aggregate
メソッドを使用して集計されます。
利用可能なメトリクスとその単位は次のとおりです:
- 平均ボード温度 (
average board temp (C)
): IPUボードの温度を摂氏で示します。
- 平均ダイ温度 (
average die temp (C)
): IPUダイの温度を摂氏で示します。
- クロックスピード (
clock (MHz)
): IPUのクロックスピードをMHzで示します。
- IPU電力 (
ipu power (W)
): IPUの電力消費量をワットで示します。
- IPU利用率 (
ipu utilisation (%)
): IPUの利用率をパーセントで示します。
- IPUセッション利用率 (
ipu utilisation (session) (%)
): 現在のセッションに特化したIPU利用率をパーセントで示します。
- データリンクスピード (
speed (GT/s)
): データ転送速度をGiga-transfers毎秒で示します。
Google クラウド TPU
テンソルプロセッシングユニット(TPU)は、Googleによって開発されたASIC(アプリケーション特定統合回路)で、機械学習のワークロードを加速するために使用されます。
TPUメモリ使用量
各TPUコアあたりの現在の高帯域幅メモリ使用量をバイト単位で示します。
W&Bは、このメトリクスに tpu.{tpu_index}.memoryUsageBytes
タグを割り当てます。
TPUメモリ使用率
各TPUコアあたりの現在の高帯域幅メモリ使用率をパーセントで示します。
W&Bは、このメトリクスに tpu.{tpu_index}.memoryUsageBytes
タグを割り当てます。
TPUデューティサイクル
TPUデバイスごとのTensorCoreデューティサイクルのパーセントです。サンプル期間中、アクセラレータTensorCoreが積極的に処理していた時間の割合を追跡します。大きな値は、より良いTensorCoreの利用率を意味します。
W&Bは、このメトリクスに tpu.{tpu_index}.dutyCycle
タグを割り当てます。
AWS Trainium
AWS Trainiumは、機械学習ワークロードの高速化に焦点を当てた、AWSが提供する特殊なハードウェアプラットフォームです。AWSの neuron-monitor
ツールを使用して、AWS Trainiumメトリクスをキャプチャします。
Trainiumニューロンコア利用率
各ニューロンコアごとの利用率をパーセントで示します。
W&Bは、このメトリクスに trn.{core_index}.neuroncore_utilization
タグを割り当てます。
Trainiumホストメモリ使用量、合計
ホストの総メモリ消費量をバイト単位で示します。
W&Bは、このメトリクスに trn.host_total_memory_usage
タグを割り当てます。
Trainiumニューロンデバイス総メモリ使用量
ニューロンデバイス上の総メモリ使用量をバイト単位で示します。
W&Bは、このメトリクスに trn.neuron_device_total_memory_usage)
タグを割り当てます。
Trainiumホストメモリ使用量の内訳:
以下はホストのメモリ使用量の内訳です:
- アプリケーションメモリ (
trn.host_total_memory_usage.application_memory
): アプリケーションによって使用されるメモリ。
- 定数 (
trn.host_total_memory_usage.constants
): 定数に使用されるメモリ。
- DMAバッファ (
trn.host_total_memory_usage.dma_buffers
): ダイレクトメモリアクセスバッファに使用されるメモリ。
- テンソル (
trn.host_total_memory_usage.tensors
): テンソルに使用されるメモリ。
Trainiumニューロンコアメモリ使用量の内訳
各ニューロンコアのメモリ使用に関する詳細情報:
- 定数 (
trn.{core_index}.neuroncore_memory_usage.constants
)
- モデルコード (
trn.{core_index}.neuroncore_memory_usage.model_code
)
- モデル共有スクラッチパッド (
trn.{core_index}.neuroncore_memory_usage.model_shared_scratchpad
)
- ランタイムメモリ (
trn.{core_index}.neuroncore_memory_usage.runtime_memory
)
- テンソル (
trn.{core_index}.neuroncore_memory_usage.tensors
)
OpenMetrics
カスタム正規表現ベースのメトリックフィルタを適用できるOpenMetrics / Prometheus互換データをエクスポートする外部エンドポイントからメトリクスをキャプチャし、ログに記録します。
特定のケースで NVIDIA DCGM-Exporter を使用してGPUクラスターのパフォーマンスを監視する方法の詳細な例については、このレポートを参照してください。