Cloud-GPU-Anbieter mit NVLink oder InfiniBand

Hochgeschwindigkeits-GPU-Verbindungen wie NVLink (bis zu 900 GB/s) und InfiniBand (bis zu 400 Gb/s) sind für effizientes Multi-GPU- und Multi-Node-Training unerlässlich. Ohne schnelle Verbindungen wird die Gradienten-Synchronisation zum Engpass im verteilten Training, was die Skalierungseffizienz erheblich verringert. Dieser Leitfaden listet Anbieter auf, die NVLink- oder InfiniBand-Konnektivität für ihre GPU-Instanzen anbieten.

Aktualisiert Juni 2026 Zeige 1 GPU-Anbieter infiniband
Trustpilot-Bewertung
4.2
Trustpilot-Bewertungen
238
+7 (7d) +9 (30d)
Hauptsitz
Vast.ai United StatesUnited States
Startpreis
$0.06/hr
Max. VRAM
192 GB
Max. GPUs
8
Abrechnung
Pro Sekunde

Was NVLink und InfiniBand tatsächlich leisten, wenn Sie Multi-GPU-Compute mieten

NVLink und InfiniBand lösen dasselbe grundlegende Problem von zwei verschiedenen Seiten der Maschine: Daten zwischen GPUs schnell genug zu bewegen, damit die Beschleuniger ihre Zeit mit Berechnungen verbringen und nicht mit Warten. Der obige Filter schränkt die Liste auf Cloud-Instanzen ein, die eine oder beide dieser Verbindungen anbieten. Sie sind nicht austauschbar — die eine ist ein intra-node Netzwerk, das GPUs innerhalb eines einzelnen Servers verbindet, und die andere ist ein inter-node Netzwerk, das Server zu einem Cluster verbindet. Für jede Arbeitslast, die mehr als eine GPU umfasst, ist die Verbindung oft der Unterschied zwischen nahezu linearer Skalierung und einer Konfiguration, bei der das Hinzufügen von GPUs kaum hilft.

NVLink: die schnelle Verbindung zwischen GPUs in einem Gehäuse

NVLink ist NVIDIAs direkte GPU-zu-GPU-Verbindung. Anstatt den Datenverkehr über den PCIe-Bus des Hosts und die CPU zu leiten, verbindet NVLink GPUs direkt miteinander (und auf einigen Plattformen über einen NVSwitch-Crossbar), sodass jede GPU im Knoten mit jeder anderen GPU mit hoher Bandbreite und niedriger Latenz kommunizieren kann. Die praktische Folge, wenn Sie eine NVLink-ausgestattete Instanz mieten:

  • Deutlich höhere GPU-zu-GPU-Bandbreite als bei reinen PCIe-Knoten, was wichtig ist, wenn Gradienten, Aktivierungen oder Modellteile bei jedem Schritt ausgetauscht werden müssen.
  • Gemeinsamer Speicher über GPUs hinweg in der Praxis — ein Modell, das zu groß für den VRAM einer einzelnen GPU ist, kann über den NVLink-Bereich verteilt werden, wobei der Datenverkehr zwischen GPUs auf dem schnellen Netzwerk bleibt und nicht über PCIe kriecht.
  • Geringerer Synchronisationsaufwand für kollektive Operationen wie All-Reduce, die das Training mit Datenparallelität dominieren.

NVLink existiert innerhalb eines einzelnen Knotens, daher umfasst es typischerweise 2, 4 oder 8 GPUs, abhängig vom Serverdesign. Wenn ein Anbieter in der obigen Liste einen 8-GPU-Knoten “mit NVLink” bewirbt, bedeutet das, dass diese acht Karten eng gekoppelt sind. Es sagt jedoch nichts darüber aus, wie dieser Knoten mit anderen Knoten verbunden ist.

InfiniBand: das Netzwerk, das viele Server zu einem Cluster verbindet

InfiniBand ist eine Netzwerktechnologie, die verwendet wird, um separate GPU-Server zu verbinden. Wenn Trainingsjobs den Umfang eines einzelnen Knotens überschreiten, verlagert sich der Engpass vom Inneren des Gehäuses auf die Verbindung zwischen den Gehäusen, und gewöhnliches Ethernet-Netzwerk kann die GPUs ausbremsen. InfiniBand begegnet diesem Problem mit sehr hoher Durchsatzrate pro Verbindung, niedriger und vorhersehbarer Latenz sowie RDMA (Remote Direct Memory Access), das es einem Server erlaubt, den Speicher eines anderen Servers zu lesen oder zu schreiben, ohne die CPU auf beiden Seiten zu involvieren. In Kombination mit GPUDirect RDMA können Daten von GPU zu GPU über Knoten hinweg bewegt werden, während Host-Speicherkopien weitgehend umgangen werden.

Für das Training über mehrere Knoten hinweg ist dies entscheidend für eine effiziente Skalierung. Der Grund, warum ein Cluster aus beispielsweise Dutzenden oder Hunderten von GPUs ein großes Modell in angemessener Zeit trainieren kann, ist, dass das inter-node Netzwerk mit der kollektiven Kommunikation Schritt hält, die der Algorithmus verlangt. Bei Verwendung von Standard-Netzwerken kann derselbe Job einen großen Teil seiner Echtzeit damit verbringen, auf das Netzwerk zu warten.

Welche Arbeitslasten benötigen das tatsächlich

Das Filtern nach NVLink oder InfiniBand macht Sinn, wenn Kommunikation, nicht nur reine Rechenleistung, auf dem kritischen Pfad liegt:

  • Training und Feinabstimmung großer Modelle, die Parameter, Optimiererzustand oder Schichten über GPUs aufteilen (Tensor-, Pipeline- oder vollständig geshardete Datenparallelität) — diese Verfahren erzeugen konstanten Datenverkehr zwischen GPUs und profitieren am meisten von NVLink innerhalb eines Knotens und InfiniBand zwischen Knoten.
  • Verteiltes Training über mehrere Knoten, wenn der Job einfach nicht in einen Server passt — hier ist InfiniBand der entscheidende Faktor für Skalierungseffizienz.
  • HPC und wissenschaftliche Simulationen, die enge Interprozesskommunikation erfordern und seit Jahren auf InfiniBand und RDMA setzen.
  • Inference mit großem Kontext oder großen Modellen, die ein einzelnes Modell über mehrere GPUs aufteilen, wobei NVLink die Latenzstrafe bei der cross-GPU-Attention und dem Zugriff auf Gewichte reduziert.

Für Single-GPU-Arbeiten ist das tatsächlich überdimensioniert. Feinabstimmung eines kleinen Modells, Batch-Inferenz, die auf eine Karte passt, die meisten Rendering-Jobs und Experimente laufen problemlos auf einer einzelnen GPU. Die Zahlung eines Aufpreises für einen eng verbundenen Knoten oder einen InfiniBand-Cluster bringt keinen Vorteil, wenn Ihr Job nie die GPU-Grenze überschreitet.

Was Sie vor der Anmietung prüfen sollten

Die beiden Verbindungen werden in Marketingtexten häufig vermischt, überprüfen Sie daher die Details anhand des obigen Vergleichs:

  • Umfang — bestätigen Sie, ob die Angabe NVLink (innerhalb eines Knotens gekoppelte GPUs) oder InfiniBand (Netzwerk zwischen Knoten) meint. Eine Single-Node-Instanz kann NVLink haben und gar kein InfiniBand.
  • Topologie und Breite — wie viele GPUs den NVLink-Bereich teilen (vollständiger NVSwitch All-to-All vs. partielle Brücken), die InfiniBand-Verbindungsrate und ob RDMA/GPUDirect aktiviert ist.
  • Generation — neuere GPU-Generationen besitzen NVLink mit höherer Bandbreite; ein “NVLink”-Label allein sagt nichts über die Geschwindigkeit aus.
  • Verfügbarkeit über mehrere Knoten — ob Sie tatsächlich mehrere miteinander verbundene Knoten reservieren können und ob diese im selben Netzwerk liegen oder über das Rechenzentrum verteilt sind.
  • Softwareunterstützung — dass NCCL, MPI und Ihr Framework das Netzwerk erkennen und nutzen; Fehlkonfigurationen fallen stillschweigend auf langsame Pfade zurück.

Was Kosten und Verfügbarkeit angeht, liegen instanzen mit vielen Verbindungen eher im oberen Bereich der Preisskala. Multi-GPU-Knoten mit NVLink und InfiniBand-verbundene Cluster verwenden Premium-Hardware und sind stark nachgefragt, daher ist die Kapazität auf Abruf knapper und Spot- oder unterbrechbare Optionen seltener als bei einzelnen Commodity-GPUs. Multi-Knoten-InfiniBand-Zuweisungen sind besonders oft limitiert, reserviert oder werden in größeren Blöcken verkauft. Betrachten Sie die Preise in der obigen Tabelle als aktuelle Referenz, da die Tarife sich ändern und je nach Anbieter unterscheiden.

Häufig gestellte Fragen

Brauche ich sowohl NVLink als auch InfiniBand?

Das hängt vom Umfang ab. Ein Multi-GPU-Job auf einem einzelnen Knoten benötigt nur NVLink. Sobald Ihr Training mehrere Server umfasst, wollen Sie auch InfiniBand, das diese Knoten verbindet — die beiden arbeiten auf unterschiedlichen Ebenen, daher verlässt sich ein großer Cluster typischerweise auf NVLink innerhalb jedes Gehäuses und InfiniBand zwischen den Gehäusen.

Läuft meine Single-GPU-Arbeitslast auf einer NVLink- oder InfiniBand-Instanz schneller?

Nein. Beide Verbindungen sind nur relevant, wenn Daten zwischen GPUs oder zwischen Knoten bewegt werden. Eine Arbeitslast, die auf eine GPU passt, nutzt keine der beiden Verbindungen, daher würden Sie einen Aufpreis für Kapazität zahlen, die Sie nicht nutzen können. Filtern Sie nur dann danach, wenn Sie über eine GPU hinaus skalieren.

Warum ist die Verbindung wichtiger als die Spezifikationen pro GPU bei großen Trainingsjobs?

Verteiltes Training verbringt einen großen Teil jedes Schritts mit dem Austausch von Gradienten und Aktivierungen. Wenn das Netzwerk nicht mithalten kann, sind die GPUs untätig, während sie auf Synchronisation warten, und das Hinzufügen weiterer GPUs bringt abnehmende Erträge. Eine schnelle Verbindung bewahrt nahezu lineare Skalierung, wenn Sie Beschleuniger hinzufügen.

Ist NVLink bei jeder Multi-GPU-Instanz verfügbar?

Nein. Einige Multi-GPU-Knoten verbinden ihre Karten nur über PCIe, was eine deutlich geringere GPU-zu-GPU-Bandbreite hat. Die Anwesenheit mehrerer GPUs garantiert nicht NVLink, prüfen Sie daher die Verbindung explizit im obigen Vergleich, statt sie aus der GPU-Anzahl abzuleiten.