Fornitori di GPU Cloud con NVLink o InfiniBand

Interconnessioni GPU ad alta larghezza di banda come NVLink (fino a 900 GB/s) e InfiniBand (fino a 400 Gb/s) sono essenziali per un addestramento efficiente multi-GPU e multi-nodo. Senza un'interconnessione veloce, la sincronizzazione dei gradienti diventa il collo di bottiglia nell'addestramento distribuito, riducendo significativamente l'efficienza della scalabilità. Questa guida elenca i fornitori che offrono connettività NVLink o InfiniBand per le loro istanze GPU.

Aggiornato Giugno 2026 Visualizzazione di 1 provider GPU infiniband
Valutazione Trustpilot
4.2
Recensioni Trustpilot
238
+7 (7d) +9 (30d)
Sede centrale
Vast.ai United StatesUnited States
Prezzo Iniziale
$0.06/hr
Max VRAM
192 GB
Max GPU
8
Fatturazione
Per secondo

Cosa fanno realmente NVLink e InfiniBand quando si noleggia un calcolo multi-GPU

NVLink e InfiniBand risolvono lo stesso problema fondamentale da due lati diversi della macchina: trasferire dati tra GPU abbastanza velocemente affinché gli acceleratori trascorrano il loro tempo a calcolare invece che ad aspettare. Il filtro sopra restringe la lista alle istanze cloud che espongono uno o entrambi questi interconnettori. Non sono intercambiabili — uno è un intra-nodo fabric che collega le GPU all’interno di un singolo server, e l’altro è un inter-nodo fabric che collega i server tra loro in un cluster. Per qualsiasi carico di lavoro che si estenda su più di una GPU, l’interconnettore è spesso la differenza tra una scalabilità quasi lineare e una configurazione in cui aggiungere GPU aiuta a malapena.

NVLink: la corsia veloce tra GPU all’interno di un unico server

NVLink è il collegamento diretto GPU-to-GPU di NVIDIA. Invece di instradare il traffico attraverso il bus PCIe dell’host e la CPU, NVLink collega le GPU tra loro (e su alcune piattaforme tramite un crossbar NVSwitch) così che ogni GPU nel nodo possa comunicare con ogni altra GPU ad alta larghezza di banda e bassa latenza. Il risultato pratico quando si noleggia un’istanza dotata di NVLink:

  • Larghezza di banda GPU-to-GPU molto più alta rispetto ai nodi solo PCIe, cosa che conta ogni volta che gradienti, attivazioni o frammenti di modello devono essere scambiati ad ogni passo.
  • Memoria condivisa tra GPU nella pratica — un modello troppo grande per la VRAM di una singola GPU può essere suddiviso nel dominio NVLink con il traffico cross-GPU che rimane sul fabric veloce invece di passare lentamente su PCIe.
  • Minore overhead di sincronizzazione per operazioni collettive come l’all-reduce, che dominano l’addestramento data-parallelo.

NVLink vive all’interno di un singolo nodo, quindi il suo ambito è tipicamente di 2, 4 o 8 GPU a seconda del design del server. Se un provider nella lista sopra pubblicizza un nodo a 8 GPU “con NVLink”, significa che quelle otto schede sono strettamente collegate. Non dice nulla, di per sé, su come quel nodo si collega ad altri nodi.

InfiniBand: il fabric che trasforma molti server in un unico cluster

InfiniBand è una tecnologia di rete usata per collegare server GPU separati. Quando i lavori di addestramento superano un singolo nodo, il collo di bottiglia si sposta dall’interno della scatola tra le scatole, e la rete Ethernet ordinaria può bloccare le GPU. InfiniBand risolve questo con una larghezza di banda per collegamento molto alta, latenza bassa e prevedibile, e RDMA (accesso diretto alla memoria remota), che permette a un server di leggere o scrivere la memoria di un altro server senza coinvolgere la CPU da nessuna delle due parti. Abbinato a GPUDirect RDMA, i dati possono muoversi da GPU a GPU tra nodi bypassando in gran parte le copie di memoria dell’host.

Per l’addestramento multi-nodo, questo è ciò che mantiene efficiente la scalabilità. Il motivo per cui un cluster di, diciamo, decine o centinaia di GPU può addestrare un modello grande in un tempo ragionevole è che il fabric inter-nodo tiene il passo con la comunicazione collettiva richiesta dall’algoritmo. Passare a una rete commodity e lo stesso lavoro può passare una grande frazione del suo tempo reale in attesa della rete.

Quali carichi di lavoro ne hanno effettivamente bisogno

Filtrare per NVLink o InfiniBand ha senso quando la comunicazione, non solo il calcolo grezzo, è sul percorso critico:

  • Addestramento e fine-tuning di modelli grandi che suddividono parametri, stato dell’ottimizzatore o layer tra GPU (parallelismo tensoriale, a pipeline o completamente sharded) — questi schemi generano traffico costante tra GPU e traggono il massimo beneficio da NVLink all’interno di un nodo e InfiniBand tra nodi.
  • Addestramento distribuito multi-nodo dove il lavoro semplicemente non entra in un singolo server — qui InfiniBand è il fattore decisivo per l’efficienza della scalabilità.
  • HPC e simulazioni scientifiche con comunicazione inter-processo stretta, che si affidano a InfiniBand e RDMA da anni.
  • Inferenza su contesti grandi o modelli grandi che suddivide un singolo modello su più GPU, dove NVLink riduce la penalità di latenza dell’attenzione e dell’accesso ai pesi cross-GPU.

È davvero eccessivo per lavori su singola GPU. Fine-tuning di un modello piccolo, esecuzione di inferenza batch che entra su una scheda, la maggior parte dei lavori di rendering e sperimentazione funzionano bene su una GPU standalone. Pagare il premium per un nodo strettamente interconnesso o un cluster InfiniBand non porta benefici se il suo lavoro non supera mai il confine della GPU.

Cosa verificare prima di noleggiare

I due interconnettori sono spesso confusi nel marketing, quindi verifichi le specifiche rispetto al confronto sopra:

  • Ambito — confermi se l’annuncio indica NVLink (accoppiamento GPU intra-nodo) o InfiniBand (rete inter-nodo). Un’istanza a nodo singolo può avere NVLink e nessun InfiniBand.
  • Topologia e larghezza — quante GPU condividono il dominio NVLink (NVSwitch full all-to-all vs. ponti parziali), e la velocità del collegamento InfiniBand e se RDMA/GPUDirect è abilitato.
  • Generazione — le generazioni più recenti di GPU portano NVLink a larghezza di banda più alta; un’etichetta “NVLink” da sola non indica la velocità.
  • Disponibilità multi-nodo — se può effettivamente riservare più nodi interconnessi, e se si trovano nello stesso fabric invece che sparsi nel data center.
  • Supporto software — che NCCL, MPI e il suo framework vedano e usino il fabric; una configurazione errata ricade silenziosamente su percorsi lenti.

Per costi e disponibilità, le istanze ricche di interconnettori si collocano verso l’estremità superiore dello spettro. Nodi multi-GPU dotati di NVLink e cluster connessi via InfiniBand usano hardware premium e sono costantemente richiesti, quindi la capacità on-demand è più limitata e le opzioni spot o interruptible sono più scarse rispetto alle GPU commodity singole. In particolare, le allocazioni InfiniBand multi-nodo sono spesso soggette a restrizioni, riservate o vendute in blocchi più grandi. Consideri i prezzi nella tabella sopra come riferimento aggiornato, poiché le tariffe variano e differiscono per provider.

Domande frequenti

Ho bisogno di entrambi NVLink e InfiniBand?

Dipende dalla scala. Un lavoro multi-GPU su nodo singolo ha bisogno solo di NVLink. Nel momento in cui il suo addestramento si estende su più server, vuole anche InfiniBand che collega quei nodi — i due operano a livelli diversi, quindi un grande cluster tipicamente si affida a NVLink all’interno di ogni server e a InfiniBand tra i server.

Il mio lavoro su singola GPU correrà più veloce su un’istanza NVLink o InfiniBand?

No. Entrambi gli interconnettori contano solo quando i dati si muovono tra GPU o tra nodi. Un carico di lavoro che entra su una sola GPU non tocca nessuno dei due fabric, quindi pagherebbe un premium per capacità che non può usare. Filtri per questi solo quando scala oltre una GPU.

Perché l’interconnettore conta più delle specifiche per GPU per grandi lavori di addestramento?

L’addestramento distribuito passa una grande parte di ogni passo a scambiare gradienti e attivazioni. Se il fabric non tiene il passo, le GPU restano inattive mentre aspettano di sincronizzarsi, e aggiungere più GPU produce rendimenti decrescenti. Un interconnettore veloce è ciò che preserva una scalabilità quasi lineare man mano che si aggiungono acceleratori.

NVLink è disponibile su ogni istanza multi-GPU?

No. Alcuni nodi multi-GPU collegano le loro schede solo tramite PCIe, che ha una larghezza di banda GPU-to-GPU molto più bassa. La presenza di più GPU non garantisce NVLink, quindi confermi esplicitamente l’interconnettore nel confronto sopra invece di presumere dalla quantità di GPU.