NVLinkまたはInfiniBand搭載のクラウドGPUプロバイダー
NVLink(最大900 GB/s)やInfiniBand(最大400 Gb/s)などの高帯域幅GPUインターコネクトは、効率的なマルチGPUおよびマルチノード学習に不可欠です。高速インターコネクトがなければ、分散学習での勾配同期がボトルネックとなり、スケーリング効率が大幅に低下します。本ガイドでは、GPUインスタンスにNVLinkまたはInfiniBand接続を提供するプロバイダーを紹介します。
United States マルチGPUコンピュートをレンタルするとき、NVLinkとInfiniBandが実際に何をしているのか
NVLinkとInfiniBandは、マシンの異なる側面から同じ根本的な問題を解決します。つまり、アクセラレータが待機するのではなく計算に専念できるように、GPU間でデータを高速に移動させることです。上のフィルターは、これらのインターコネクトのいずれか一方または両方を備えたクラウドインスタンスに絞り込んでいます。これらは互換性があるわけではありません。1つはノード内のファブリックで、単一サーバー内のGPUを接続し、もう1つはノード間のファブリックで、サーバーをクラスタとして結びつけます。複数GPUにまたがるワークロードでは、インターコネクトがほぼ線形スケーリングとGPUを追加してもほとんど効果がない設定の差になることが多いです。
NVLink:1台のボックス内GPU間の高速レーン
NVLinkはNVIDIAの直接GPU間リンクです。ホストのPCIeバスやCPUを経由せずに、NVLinkはGPU同士(プラットフォームによってはNVSwitchクロスバーを介して)を接続し、ノード内のすべてのGPUが低遅延で高帯域幅の通信を行えます。NVLink搭載インスタンスをレンタルした際の実際の利点は:
- PCIeのみのノードよりもはるかに高いGPU間帯域幅で、勾配、アクティベーション、モデルのシャードを毎ステップ交換する場合に重要です。
- 実質的にGPU間でメモリをプールできるため、1つのGPUのVRAMに収まらない大きなモデルをNVLinkドメイン内で分割し、クロスGPUトラフィックがPCIeを経由せず高速ファブリック上で行われます。
- All-reduceのような集合操作の同期オーバーヘッドが低減され、データ並列トレーニングで支配的な処理が効率化されます。
NVLinkは単一ノード内に存在するため、通常はサーバーデザインにより2、4、または8GPUの範囲です。上記リストのプロバイダーが「NVLink付き8GPUノード」を謳う場合、それら8枚のカードは密接に結合されています。ただし、それだけではそのノードが他のノードとどう接続されているかは示しません。
InfiniBand:多くのサーバーを1つのクラスタにするファブリック
InfiniBandは別々のGPUサーバーを接続するためのネットワーク技術です。トレーニングジョブが単一ノードを超えると、ボトルネックはボックス内からボックス間へ移り、通常のイーサネットネットワークではGPUが停滞します。InfiniBandは非常に高いリンクスループット、低く予測可能な遅延、そしてRDMA(リモートダイレクトメモリアクセス)を備えています。これにより、一方のサーバーがもう一方のサーバーのCPUを介さずにメモリを読み書きできます。GPUDirect RDMAと組み合わせることで、ノード間でGPUからGPUへデータをホストメモリコピーをほぼ回避して移動できます。
マルチノードトレーニングでは、これがスケーリング効率を保つ要因です。例えば数十台や数百台のGPUクラスタが大規模モデルを合理的な時間でトレーニングできるのは、インターノードファブリックがアルゴリズムが要求する集合通信に追従するからです。一般的なネットワークにすると、同じジョブが実時間の大部分をネットワーク待ちに費やすことになります。
どのワークロードが実際にこれを必要とするか
NVLinkまたはInfiniBandでフィルタリングするのは、単なる計算だけでなく通信がクリティカルパスにある場合に意味があります:
- 大規模モデルのトレーニングとファインチューニングで、パラメータ、オプティマイザ状態、またはレイヤーをGPU間でシャードする(テンソル、パイプライン、または完全シャードデータ並列)—これらの方式は常にクロスGPUトラフィックを発生させ、ノード内はNVLink、ノード間はInfiniBandの恩恵を最も受けます。
- マルチノード分散トレーニングで、ジョブが単一サーバーに収まらない場合—ここでInfiniBandがスケーリング効率の決定要因になります。
- HPCや科学シミュレーションで、密なプロセス間通信が必要なものは長年InfiniBandとRDMAに依存しています。
- 大規模コンテキストや大規模モデルの推論で、単一モデルを複数GPUに分割し、NVLinkがクロスGPUのアテンションや重みアクセスの遅延ペナルティを軽減します。
単一GPU作業には正直言って過剰です。小規模モデルのファインチューニング、1枚のカードに収まるバッチ推論、ほとんどのレンダリング作業、実験は単独GPUで十分です。GPU境界を越えないジョブに対して、密結合ノードやInfiniBandクラスタのプレミアムを支払うメリットはありません。
レンタル前に確認すべきこと
2つのインターコネクトはマーケティング文言で混同されがちなので、上記比較と照らして詳細を確認してください:
- スコープ — リストがNVLink(ノード内GPU結合)かInfiniBand(ノード間ネットワーク)を意味するかを確認してください。単一ノードインスタンスはNVLinkがあってもInfiniBandが全くない場合があります。
- トポロジと幅 — 何枚のGPUがNVLinkドメインを共有するか(完全NVSwitchオールトゥオールか部分ブリッジか)、InfiniBandのリンク速度やRDMA/GPUDirectの有効化状況。
- 世代 — 新しいGPU世代ほど高帯域幅のNVLinkを搭載しています。「NVLink」表記だけでは速度はわかりません。
- マルチノード対応 — 実際に複数の相互接続ノードを予約できるか、同じファブリック内に配置されるか(データセンター内に散らばらないか)を確認してください。
- ソフトウェアサポート — NCCL、MPI、フレームワークがファブリックを認識し利用できるか。設定ミスは静かに遅い経路にフォールバックします。
コストと可用性について、インターコネクト豊富なインスタンスは価格帯の上位に位置します。NVLink搭載のマルチGPUノードやInfiniBand接続クラスタは高価なハードウェアを使い需要が安定しているため、オンデマンドのキャパシティは限られ、スポットや割り込み可能なオプションは単一の一般的なGPUよりも少ないです。特にマルチノードInfiniBandの割り当てはしばしば制限され、予約制または大口販売です。上記表の価格はリアルタイムの参考として扱い、プロバイダーによって変動や差異があることに注意してください。
よくある質問
NVLinkとInfiniBandの両方が必要ですか?
規模によります。単一ノードのマルチGPUジョブにはNVLinkだけで十分です。トレーニングが複数サーバーにまたがる瞬間から、それらのノードを接続するInfiniBandも必要になります。両者は異なるレイヤーで動作するため、大規模クラスタでは各ボックス内にNVLink、ボックス間にInfiniBandを使うのが一般的です。
単一GPUのワークロードはNVLinkやInfiniBandインスタンスで速くなりますか?
いいえ。両インターコネクトはGPU間またはノード間でデータが移動するときにのみ意味があります。1つのGPUに収まるワークロードはどちらのファブリックも使わないため、使えない容量に対してプレミアムを支払うことになります。1GPUを超えてスケールするときだけこれらでフィルタリングしてください。
なぜ大規模トレーニングではインターコネクトがGPU単体スペックより重要なのですか?
分散トレーニングは各ステップの多くを勾配やアクティベーションの交換に費やします。ファブリックが追いつかないと、GPUは同期待ちでアイドルになり、GPUを増やしても効果が薄れます。高速インターコネクトがアクセラレータ追加時のほぼ線形スケーリングを維持します。
すべてのマルチGPUインスタンスにNVLinkはありますか?
いいえ。PCIeのみでカードを接続するマルチGPUノードもあります。複数GPUがあるからといってNVLinkがあるとは限らないため、GPU数だけでなく上記比較でインターコネクトを明示的に確認してください。