NVLink veya InfiniBand ile Bulut GPU Sağlayıcıları
NVLink (900 GB/s'ye kadar) ve InfiniBand (400 Gb/s'ye kadar) gibi yüksek bant genişliğine sahip GPU bağlantıları, verimli çoklu GPU ve çoklu düğüm eğitimleri için gereklidir. Hızlı bağlantı olmadan, dağıtılmış eğitimde gradyan senkronizasyonu darboğaz haline gelir ve ölçeklendirme verimliliğini önemli ölçüde düşürür. Bu rehber, GPU örnekleri için NVLink veya InfiniBand bağlantısı sunan sağlayıcıları listeler.
United States Çoklu GPU hesaplama kiraladığınızda NVLink ve InfiniBand’in gerçekte ne yaptığı
NVLink ve InfiniBand, makinenin iki farklı tarafından aynı temel problemi çözer: hızlandırıcıların beklemek yerine hesaplama yapmaları için GPU’lar arasında veriyi yeterince hızlı taşımak. Yukarıdaki filtre, bu iki bağlantıdan birini veya her ikisini sunan bulut örneklerini daraltır. Bunlar birbirinin yerine geçmez — biri düğüm içi bir yapı olup tek bir sunucu içindeki GPU’ları bağlar, diğeri ise düğümler arası bir yapı olup sunucuları bir küme halinde bağlar. Birden fazla GPU’yu kapsayan herhangi bir iş yükü için, bağlantı genellikle neredeyse doğrusal ölçeklenme ile GPU eklemenin neredeyse fayda sağlamadığı bir yapı arasındaki farktır.
NVLink: Bir kutu içindeki GPU’lar arasında hızlı yol
NVLink, NVIDIA’nın doğrudan GPU’dan GPU’ya bağlantısıdır. Trafiği ana PCIe veri yolu ve CPU üzerinden yönlendirmek yerine, NVLink GPU’ları birbirine (ve bazı platformlarda NVSwitch çapraz anahtarı üzerinden) bağlar, böylece düğümdeki her GPU diğer her GPU ile yüksek bant genişliği ve düşük gecikmeyle iletişim kurabilir. NVLink donanımlı bir örnek kiraladığınızda pratik sonuçlar şunlardır:
- PCIe-only düğümlere kıyasla çok daha yüksek GPU’dan GPU’ya bant genişliği, bu, her adımda gradyanlar, aktivasyonlar veya model parçalarının değiş tokuş edilmesi gerektiğinde önemlidir.
- GPU’lar arasında pratikte paylaşılan bellek — tek bir GPU’nun VRAM’ine sığmayan bir model, NVLink alanı boyunca bölünebilir ve GPU’lar arası trafik PCIe üzerinden sürünmek yerine hızlı yapı üzerinde kalır.
- Toplu işlemler için daha düşük senkronizasyon yükü, veri-paralel eğitimde baskın olan all-reduce gibi işlemler için.
NVLink tek bir düğüm içinde yaşar, bu yüzden kapsamı genellikle sunucu tasarımına bağlı olarak 2, 4 veya 8 GPU’dur. Yukarıdaki listede bir sağlayıcı “NVLink ile 8 GPU düğümü” reklamı yapıyorsa, bu sekiz kartın sıkı bir şekilde bağlı olduğu anlamına gelir. Bu, o düğümün diğer düğümlere nasıl bağlandığı hakkında tek başına bir şey söylemez.
InfiniBand: Birçok sunucuyu tek bir küme haline getiren yapı
InfiniBand, ayrı GPU sunucularını bağlamak için kullanılan bir ağ teknolojisidir. Eğitim işleri tek bir düğümü aştığında, darboğaz kutu içinden kutular arası hale gelir ve sıradan Ethernet ağı GPU’ları durdurabilir. InfiniBand bunu çok yüksek bağlantı başına verim, düşük ve öngörülebilir gecikme ve RDMA (uzaktan doğrudan bellek erişimi) ile çözer; bu, bir sunucunun diğer sunucunun belleğini her iki taraftaki CPU’yu dahil etmeden okumasını veya yazmasını sağlar. GPUDirect RDMA ile eşleştirildiğinde, veri düğümler arasında GPU’dan GPU’ya geçerken ana bellek kopyalarını büyük ölçüde atlayabilir.
Çok düğümlü eğitim için, bu ölçeklenmenin verimli kalmasını sağlar. Örneğin onlarca veya yüzlerce GPU’dan oluşan bir kümenin büyük bir modeli makul sürede eğitebilmesinin nedeni, düğümler arası yapının algoritmanın talep ettiği toplu iletişimi karşılamasıdır. Basit ağlara düşerseniz, aynı iş büyük bir kısmını ağda bekleyerek geçirir.
Hangi iş yükleri gerçekten buna ihtiyaç duyar
NVLink veya InfiniBand filtresi, iletişim sadece ham hesaplama değil kritik yol üzerindeyse mantıklıdır:
- Büyük model eğitimi ve ince ayar parametreleri, optimize edici durumu veya katmanları GPU’lar arasında parçalayan (tensor, pipeline veya tam parçalanmış veri paralelliği) — bu şemalar sürekli GPU’lar arası trafik üretir ve düğüm içi NVLink ve düğümler arası InfiniBand’den en çok faydalanır.
- Çok düğümlü dağıtık eğitim işin tek bir sunucuya sığmadığı durumlarda — burada InfiniBand ölçeklenme verimliliği için belirleyicidir.
- HPC ve bilimsel simülasyonlar sıkı süreçler arası iletişim gerektirir ve yıllardır InfiniBand ve RDMA’ya dayanır.
- Büyük bağlamlı veya büyük model çıkarımı tek bir modeli birden çok GPU’ya böler, burada NVLink GPU’lar arası dikkat ve ağırlık erişiminin gecikme cezasını azaltır.
Tek GPU işi için gerçekten aşırıya kaçmaktır. Küçük bir modeli ince ayarlamak, tek bir karta sığan toplu çıkarımı çalıştırmak, çoğu render işi ve denemeler bağımsız bir GPU’da sorunsuz çalışır. Sıkı bağlı bir düğüm veya InfiniBand kümesi için prim ödemek, işiniz GPU sınırını hiç geçmiyorsa fayda sağlamaz.
Kiralamadan önce kontrol edilecekler
İki bağlantı pazarlama metinlerinde sıkça karıştırılır, bu yüzden yukarıdaki karşılaştırmaya göre ayrıntıları doğrulayın:
- Kapsam — listelemenin NVLink (düğüm içi GPU bağlantısı) mi yoksa InfiniBand (düğümler arası ağ) mı olduğunu onaylayın. Tek düğümlü bir örnek NVLink’e sahip olabilir ama hiç InfiniBand olmayabilir.
- Topoloji ve genişlik — NVLink alanını kaç GPU’nun paylaştığı (tam NVSwitch tümden-tüme mi yoksa kısmi köprüler mi), InfiniBand bağlantı hızı ve RDMA/GPUDirect’in etkin olup olmadığı.
- Nesil — daha yeni GPU nesilleri daha yüksek bant genişliğine sahip NVLink taşır; sadece “NVLink” etiketi hız hakkında bilgi vermez.
- Çok düğümlü kullanılabilirlik — gerçekten birden fazla birbirine bağlı düğüm ayırtabiliyor musunuz ve bunlar veri merkezinde dağınık değil aynı yapıda mı yer alıyor.
- Yazılım desteği — NCCL, MPI ve kullandığınız çerçevenin yapıyı görüp kullanması; yanlış yapılandırma sessizce yavaş yollara düşer.
Maliyet ve kullanılabilirlik açısından, bağlantı zengini örnekler spektrumun üst ucundadır. NVLink donanımlı çoklu GPU düğümleri ve InfiniBand bağlantılı kümeler premium donanım kullanır ve sürekli talep görür, bu yüzden talep üzerine kapasite daha kısıtlıdır ve spot ya da kesintili seçenekler tekil standart GPU’lardan daha nadirdir. Özellikle çok düğümlü InfiniBand tahsisleri genellikle kapılıdır, ayrılmıştır veya daha büyük bloklar halinde satılır. Yukarıdaki tabloda verilen fiyatları canlı referans olarak kabul edin, çünkü oranlar değişir ve sağlayıcıya göre farklılık gösterir.
Sıkça sorulan sorular
Hem NVLink hem de InfiniBand’e ihtiyacım var mı?
Ölçeğe bağlı. Tek düğümlü çoklu GPU işi sadece NVLink gerektirir. Eğitim birden fazla sunucuya yayıldığında, bu düğümleri bağlayan InfiniBand de istersiniz — ikisi farklı katmanlarda çalışır, bu yüzden büyük bir küme genellikle her kutu içinde NVLink ve kutular arasında InfiniBand kullanır.
Tek GPU işim NVLink veya InfiniBand örneğinde daha mı hızlı çalışır?
Hayır. Her iki bağlantı da yalnızca veriler GPU’lar veya düğümler arasında hareket ettiğinde önemlidir. Tek bir GPU’ya sığan iş yükü bu yapılara hiç dokunmaz, bu yüzden kullanamayacağınız kapasite için prim ödersiniz. Bunları yalnızca bir GPU’dan fazlasına ölçeklenirken filtreleyin.
Neden bağlantı, büyük eğitim işleri için GPU başına özelliklerden daha mı önemlidir?
Dağıtık eğitim her adımın büyük bir kısmını gradyanlar ve aktivasyonlar değiş tokuş ederek geçirir. Eğer yapı hızına yetişemezse, GPU’lar senkronizasyon için beklerken boşta kalır ve daha fazla GPU eklemek azalan getiri sağlar. Hızlı bir bağlantı, hızlandırıcı ekledikçe neredeyse doğrusal ölçeklenmeyi koruyan şeydir.
NVLink her çoklu GPU örneğinde mevcut mu?
Hayır. Bazı çoklu GPU düğümleri kartlarını sadece PCIe üzerinden bağlar, bu da çok daha düşük GPU’dan GPU’ya bant genişliği demektir. Birden fazla GPU olması NVLink garantisi vermez, bu yüzden GPU sayısından varsaymak yerine yukarıdaki karşılaştırmada bağlantıyı açıkça onaylayın.