Fournisseurs de GPU Cloud avec NVLink ou InfiniBand
Les interconnexions GPU à haute bande passante comme NVLink (jusqu'à 900 Go/s) et InfiniBand (jusqu'à 400 Gb/s) sont essentielles pour un entraînement multi-GPU et multi-nœuds efficace. Sans interconnexion rapide, la synchronisation des gradients devient le goulot d'étranglement dans l'entraînement distribué, réduisant considérablement l'efficacité de la montée en charge. Ce guide répertorie les fournisseurs offrant une connectivité NVLink ou InfiniBand pour leurs instances GPU.
United States Ce que NVLink et InfiniBand font réellement lorsque vous louez un calcul multi-GPU
NVLink et InfiniBand résolvent le même problème fondamental sous deux angles différents de la machine : déplacer les données entre les GPU assez rapidement pour que les accélérateurs passent leur temps à calculer plutôt qu’à attendre. Le filtre ci-dessus restreint la liste aux instances cloud qui exposent un ou les deux de ces interconnexions. Ils ne sont pas interchangeables — l’un est un réseau intra-nœud qui relie les GPU à l’intérieur d’un seul serveur, et l’autre est un réseau inter-nœuds qui relie les serveurs entre eux pour former un cluster. Pour toute charge de travail qui s’étend sur plus d’un GPU, l’interconnexion fait souvent la différence entre une montée en charge quasi linéaire et une configuration où ajouter des GPU n’aide guère.
NVLink : la voie rapide entre GPU à l’intérieur d’une même machine
NVLink est le lien direct GPU-à-GPU de NVIDIA. Au lieu de faire transiter le trafic par le bus PCIe de l’hôte et le CPU, NVLink connecte les GPU entre eux (et sur certaines plateformes via un commutateur NVSwitch) de sorte que chaque GPU du nœud peut communiquer avec tous les autres GPU à haute bande passante et faible latence. Le résultat pratique lorsque vous louez une instance équipée de NVLink :
- Une bande passante GPU-à-GPU bien plus élevée que sur des nœuds uniquement PCIe, ce qui importe chaque fois que des gradients, activations ou fragments de modèle doivent être échangés à chaque étape.
- Une mémoire mutualisée entre GPU en pratique — un modèle trop grand pour la VRAM d’un seul GPU peut être réparti sur le domaine NVLink avec le trafic inter-GPU restant sur le réseau rapide plutôt que de transiter lentement par PCIe.
- Une moindre surcharge de synchronisation pour les opérations collectives comme l’all-reduce, qui dominent l’entraînement en parallèle de données.
NVLink se trouve à l’intérieur d’un seul nœud, donc sa portée est typiquement de 2, 4 ou 8 GPU selon la conception du serveur. Si un fournisseur dans la liste ci-dessus annonce un nœud 8-GPU « avec NVLink », cela signifie que ces huit cartes sont étroitement couplées. Cela ne dit rien, en soi, sur la façon dont ce nœud se connecte aux autres nœuds.
InfiniBand : le réseau qui transforme plusieurs serveurs en un cluster unique
InfiniBand est une technologie réseau utilisée pour connecter des serveurs GPU séparés. Lorsque les tâches d’entraînement dépassent un seul nœud, le goulot d’étranglement se déplace de l’intérieur de la machine vers entre les machines, et le réseau Ethernet ordinaire peut ralentir les GPU. InfiniBand répond à cela avec un débit très élevé par lien, une latence faible et prévisible, et RDMA (accès direct à la mémoire à distance), qui permet à un serveur de lire ou d’écrire dans la mémoire d’un autre serveur sans impliquer le CPU de part et d’autre. Associé à GPUDirect RDMA, les données peuvent circuler de GPU à GPU à travers les nœuds tout en contournant largement les copies en mémoire hôte.
Pour l’entraînement multi-nœuds, c’est ce qui maintient l’efficacité de la montée en charge. La raison pour laquelle un cluster de, disons, des dizaines ou centaines de GPU peut entraîner un grand modèle en un temps raisonnable est que le réseau inter-nœuds suit le rythme des communications collectives exigées par l’algorithme. Passer à un réseau standard et la même tâche peut passer une grande partie de son temps réel à attendre sur le réseau.
Quelles charges de travail ont réellement besoin de cela
Filtrer pour NVLink ou InfiniBand a du sens lorsque la communication, pas seulement la puissance brute, est sur le chemin critique :
- Entraînement et ajustement de grands modèles qui fragmentent les paramètres, l’état de l’optimiseur ou les couches entre GPU (par parallélisme tensoriel, pipeline ou données entièrement fragmentées) — ces schémas génèrent un trafic constant entre GPU et bénéficient le plus de NVLink à l’intérieur d’un nœud et d’InfiniBand entre nœuds.
- Entraînement distribué multi-nœuds lorsque la tâche ne tient tout simplement pas sur un seul serveur — ici InfiniBand est le facteur décisif pour l’efficacité de la montée en charge.
- Calcul haute performance (HPC) et simulation scientifique avec une communication inter-processus serrée, qui s’appuie depuis des années sur InfiniBand et RDMA.
- Inférence de grand contexte ou de grand modèle qui répartit un modèle unique sur plusieurs GPU, où NVLink réduit la pénalité de latence des accès croisés à l’attention et aux poids entre GPU.
C’est vraiment excessif pour un travail sur un seul GPU. Ajuster un petit modèle, exécuter une inférence par lots qui tient sur une carte, la plupart des tâches de rendu et les expérimentations fonctionnent très bien sur un GPU autonome. Payer le supplément pour un nœud étroitement interconnecté ou un cluster InfiniBand n’apporte aucun avantage si votre tâche ne dépasse jamais la frontière GPU.
Ce qu’il faut vérifier avant de louer
Les deux interconnexions sont souvent confondues dans les textes marketing, donc vérifiez les spécificités par rapport à la comparaison ci-dessus :
- Portée — confirmez si l’annonce signifie NVLink (couplage GPU intra-nœud) ou InfiniBand (réseau inter-nœuds). Une instance mono-nœud peut avoir NVLink sans aucun InfiniBand.
- Topologie et largeur — combien de GPU partagent le domaine NVLink (NVSwitch complet tous-à-tous vs. ponts partiels), et le débit du lien InfiniBand ainsi que l’activation de RDMA/GPUDirect.
- Génération — les générations plus récentes de GPU offrent un NVLink à plus haute bande passante ; une étiquette « NVLink » seule ne renseigne pas sur la vitesse.
- Disponibilité multi-nœuds — si vous pouvez réellement réserver plusieurs nœuds interconnectés, et s’ils se trouvent dans le même réseau plutôt que dispersés dans le centre de données.
- Support logiciel — que NCCL, MPI et votre framework détectent et utilisent le réseau ; une mauvaise configuration retombe silencieusement sur des chemins lents.
En termes de coût et de disponibilité, les instances riches en interconnexions se situent vers le haut de la fourchette. Les nœuds multi-GPU équipés de NVLink et les clusters connectés en InfiniBand utilisent du matériel premium et sont très demandés, donc la capacité à la demande est plus limitée et les options spot ou interruptibles sont plus rares que pour des GPU uniques standards. Les allocations InfiniBand multi-nœuds en particulier sont souvent restreintes, réservées ou vendues en blocs plus importants. Considérez les prix dans le tableau ci-dessus comme la référence en temps réel, car les tarifs évoluent et varient selon les fournisseurs.
Questions fréquemment posées
Ai-je besoin à la fois de NVLink et d’InfiniBand ?
Cela dépend de l’échelle. Une tâche multi-GPU mono-nœud n’a besoin que de NVLink. Dès que votre entraînement s’étend sur plusieurs serveurs, vous voulez aussi InfiniBand pour connecter ces nœuds — les deux fonctionnent à différents niveaux, donc un grand cluster s’appuie typiquement sur NVLink à l’intérieur de chaque machine et InfiniBand entre les machines.
Mon travail sur un seul GPU sera-t-il plus rapide sur une instance NVLink ou InfiniBand ?
Non. Les deux interconnexions ne comptent que lorsque les données circulent entre GPU ou entre nœuds. Une charge de travail qui tient sur un seul GPU ne touche jamais à ces réseaux, donc vous paieriez un supplément pour une capacité que vous ne pouvez pas utiliser. Filtrez pour ces options uniquement lorsque vous évoluez au-delà d’un GPU.
Pourquoi l’interconnexion compte-t-elle plus que les spécifications par GPU pour les gros travaux d’entraînement ?
L’entraînement distribué passe une grande part de chaque étape à échanger gradients et activations. Si le réseau ne suit pas, les GPU restent inactifs en attendant la synchronisation, et ajouter plus de GPU donne des rendements décroissants. Une interconnexion rapide est ce qui préserve une montée en charge quasi linéaire à mesure que vous ajoutez des accélérateurs.
Le NVLink est-il disponible sur toutes les instances multi-GPU ?
Non. Certains nœuds multi-GPU connectent leurs cartes uniquement via PCIe, qui offre une bande passante GPU-à-GPU bien inférieure. La présence de plusieurs GPU ne garantit pas NVLink, donc confirmez explicitement l’interconnexion dans la comparaison ci-dessus plutôt que de la supposer d’après le nombre de GPU.