NVLink 또는 InfiniBand를 지원하는 클라우드 GPU 제공업체
NVLink(최대 900 GB/s) 및 InfiniBand(최대 400 Gb/s)와 같은 고대역폭 GPU 인터커넥트는 효율적인 다중 GPU 및 다중 노드 학습에 필수적입니다. 빠른 인터커넥트가 없으면 분산 학습에서 그래디언트 동기화가 병목 현상이 되어 확장 효율성이 크게 저하됩니다. 이 가이드는 GPU 인스턴스에 NVLink 또는 InfiniBand 연결을 제공하는 업체를 나열합니다.
이 가이드에 맞는 GPU 제공업체가 아직 없습니다. 곧 다시 확인해 주세요.
멀티 GPU 컴퓨팅을 임대할 때 NVLink와 InfiniBand가 실제로 하는 일
NVLink와 InfiniBand는 머신의 두 다른 측면에서 동일한 근본적인 문제를 해결합니다: 가속기가 대기하는 대신 계산에 집중할 수 있도록 GPU 간 데이터를 충분히 빠르게 이동시키는 것입니다. 위 필터는 이러한 인터커넥트 중 하나 또는 둘 다를 노출하는 클라우드 인스턴스로 목록을 좁힙니다. 이들은 상호 교환 가능하지 않습니다 — 하나는 단일 서버 내 GPU를 연결하는 노드 내 패브릭이고, 다른 하나는 서버들을 클러스터로 연결하는 노드 간 패브릭입니다. 두 개 이상의 GPU에 걸친 작업 부하에서는 인터커넥트가 거의 선형 확장과 GPU 추가가 거의 도움이 되지 않는 설정을 가르는 차이인 경우가 많습니다.
NVLink: 하나의 서버 내 GPU 간 빠른 통로
NVLink는 NVIDIA의 직접 GPU 대 GPU 연결입니다. 트래픽을 호스트 PCIe 버스와 CPU를 통해 라우팅하는 대신, NVLink는 GPU들을 서로 연결하며(일부 플랫폼에서는 NVSwitch 크로스바를 통해) 노드 내 모든 GPU가 높은 대역폭과 낮은 지연으로 서로 통신할 수 있게 합니다. NVLink가 장착된 인스턴스를 임대할 때의 실질적인 효과는 다음과 같습니다:
- PCIe 전용 노드보다 훨씬 높은 GPU 대 GPU 대역폭 — 매 스텝마다 그래디언트, 활성화 또는 모델 샤드를 교환해야 할 때 중요합니다.
- GPU 간 풀링된 메모리 — 하나의 GPU VRAM에 맞지 않는 모델도 NVLink 도메인 내에서 분할할 수 있으며, 교차 GPU 트래픽이 PCIe를 통해 느리게 이동하는 대신 빠른 패브릭 내에서 유지됩니다.
- 집단 연산(예: all-reduce)에서의 낮은 동기화 오버헤드 — 데이터 병렬 훈련에서 주로 발생합니다.
NVLink는 단일 노드 내에 존재하므로, 범위는 서버 설계에 따라 일반적으로 2, 4 또는 8 GPU입니다. 위 목록에서 제공자가 “NVLink가 있는 8-GPU 노드”를 광고한다면, 이는 그 8개의 카드가 밀접하게 연결되어 있음을 의미합니다. 이 자체로는 그 노드가 다른 노드와 어떻게 연결되는지에 대해 아무것도 말하지 않습니다.
InfiniBand: 여러 서버를 하나의 클러스터로 만드는 패브릭
InfiniBand는 별도의 GPU 서버를 연결하는 네트워킹 기술입니다. 훈련 작업이 단일 노드를 초과하면 병목 현상은 박스 내부에서 박스 간으로 이동하며, 일반 이더넷 네트워킹은 GPU를 지연시킬 수 있습니다. InfiniBand는 매우 높은 링크당 처리량, 낮고 예측 가능한 지연 시간, 그리고 RDMA (원격 직접 메모리 접근)을 통해 이를 해결합니다. RDMA는 한 서버가 다른 서버의 메모리를 양쪽 CPU를 개입시키지 않고 읽거나 쓸 수 있게 합니다. GPUDirect RDMA와 결합하면 데이터가 호스트 메모리 복사를 거의 거치지 않고 노드 간 GPU에서 GPU로 이동할 수 있습니다.
멀티 노드 훈련에서 이것이 확장 효율성을 유지하는 핵심입니다. 예를 들어 수십 또는 수백 개의 GPU 클러스터가 큰 모델을 합리적인 시간 내에 훈련할 수 있는 이유는 노드 간 패브릭이 알고리즘이 요구하는 집단 통신을 따라가기 때문입니다. 일반 네트워킹으로 떨어지면 동일 작업이 네트워크 대기 시간에 많은 벽시계 시간을 소비할 수 있습니다.
어떤 작업 부하가 실제로 이것을 필요로 하는가
통신이 단순한 원시 계산뿐 아니라 중요한 경로에 있을 때 NVLink 또는 InfiniBand로 필터링하는 것이 합리적입니다:
- 파라미터, 옵티마이저 상태 또는 레이어를 GPU 간 분할하는 대형 모델 훈련 및 미세 조정 (텐서, 파이프라인 또는 완전 샤딩된 데이터 병렬성) — 이러한 방식은 지속적인 교차 GPU 트래픽을 생성하며 노드 내에서는 NVLink, 노드 간에는 InfiniBand의 혜택을 가장 많이 받습니다.
- 단일 서버에 맞지 않는 멀티 노드 분산 훈련 — 여기서 InfiniBand가 확장 효율성의 결정적 요소입니다.
- InfiniBand와 RDMA에 수년간 의존해 온 HPC 및 과학 시뮬레이션 — 긴밀한 프로세스 간 통신이 요구됩니다.
- 단일 모델을 여러 GPU에 분할하는 대규모 컨텍스트 또는 대형 모델 추론 — NVLink는 교차 GPU 어텐션과 가중치 접근의 지연 페널티를 줄입니다.
단일 GPU 작업에는 실제로 과도한 사양입니다. 작은 모델 미세 조정, 하나의 카드에 맞는 배치 추론, 대부분의 렌더링 작업 및 실험은 독립형 GPU에서 잘 실행됩니다. 작업이 GPU 경계를 넘지 않는다면 밀접하게 연결된 노드나 InfiniBand 클러스터에 프리미엄을 지불해도 이득이 없습니다.
임대 전에 확인할 사항
두 인터커넥트는 마케팅 문구에서 자주 혼동되므로 위 비교와 대조하여 구체 사항을 확인하십시오:
- 범위 — 목록이 NVLink(노드 내 GPU 결합)를 의미하는지 InfiniBand(노드 간 네트워킹)를 의미하는지 확인하세요. 단일 노드 인스턴스는 NVLink만 있고 InfiniBand가 전혀 없을 수 있습니다.
- 토폴로지 및 대역폭 — NVLink 도메인을 공유하는 GPU 수(전체 NVSwitch 올투올 대 부분 브리지), InfiniBand 링크 속도 및 RDMA/GPUDirect 활성화 여부.
- 세대 — 최신 GPU 세대는 더 높은 대역폭 NVLink를 탑재합니다; 단순히 “NVLink” 라벨만으로 속도를 알 수 없습니다.
- 멀티 노드 가용성 — 실제로 여러 상호 연결된 노드를 예약할 수 있는지, 그리고 그것들이 데이터 센터 전역에 흩어져 있지 않고 동일한 패브릭에 배치되는지 여부.
- 소프트웨어 지원 — NCCL, MPI 및 프레임워크가 패브릭을 인식하고 사용하며, 잘못된 구성 시 느린 경로로 조용히 대체될 수 있습니다.
비용과 가용성 측면에서 인터커넥트가 풍부한 인스턴스는 스펙트럼의 상위에 위치합니다. NVLink가 장착된 멀티 GPU 노드와 InfiniBand로 연결된 클러스터는 프리미엄 하드웨어를 사용하며 수요가 꾸준해 온디맨드 용량이 더 제한적이고 스팟 또는 인터럽트 가능한 옵션이 단일 범용 GPU보다 더 희소합니다. 특히 멀티 노드 InfiniBand 할당은 종종 제한되거나 예약되거나 더 큰 단위로 판매됩니다. 위 표의 가격은 공급자별로 변동하고 다르므로 실시간 참조로 간주하십시오.
자주 묻는 질문
NVLink와 InfiniBand 둘 다 필요합니까?
규모에 따라 다릅니다. 단일 노드 멀티 GPU 작업에는 NVLink만 필요합니다. 훈련이 여러 서버에 걸치면 그 노드를 연결하는 InfiniBand도 필요합니다 — 두 기술은 서로 다른 계층에서 작동하므로 큰 클러스터는 일반적으로 각 박스 내에서는 NVLink, 박스 간에는 InfiniBand에 의존합니다.
단일 GPU 작업이 NVLink 또는 InfiniBand 인스턴스에서 더 빨리 실행됩니까?
아니요. 두 인터커넥트는 GPU 간 또는 노드 간 데이터 이동이 있을 때만 중요합니다. 하나의 GPU에 맞는 작업은 어느 패브릭도 사용하지 않으므로 사용할 수 없는 용량에 대해 프리미엄을 지불하는 셈입니다. GPU를 초과하는 확장 시에만 이들로 필터링하십시오.
대규모 훈련 작업에서 인터커넥트가 GPU별 사양보다 더 중요한 이유는 무엇입니까?
분산 훈련은 각 스텝의 상당 부분을 그래디언트와 활성화를 교환하는 데 사용합니다. 패브릭이 속도를 따라가지 못하면 GPU가 동기화를 기다리며 유휴 상태가 되고, GPU를 추가해도 수익이 감소합니다. 빠른 인터커넥트가 가속기를 추가할 때 거의 선형 확장을 유지하는 핵심입니다.
모든 멀티 GPU 인스턴스에 NVLink가 있습니까?
아니요. 일부 멀티 GPU 노드는 카드들을 PCIe만으로 연결하며, 이는 GPU 간 대역폭이 훨씬 낮습니다. 여러 GPU가 있다고 해서 NVLink가 보장되는 것은 아니므로 GPU 수로 추정하지 말고 위 비교에서 인터커넥트를 명확히 확인하세요.