Cât de bine se scalează NVIDIA GB200 Superchip pe mai multe GPU-uri?
Răspuns
Titlul performanței NVIDIA GB200 Superchip: 4,500 TFLOPS FP16, 150 TFLOPS FP32, 16,000 GB/s lățime de bandă, 384 GB VRAM.
Convertit în benchmark-uri practice: antrenarea unui LLM de 7 miliarde de parametri în FP16 cu dimensiuni rezonabile de lot tipic saturează calculul înaintea lățimii de bandă; servirea în timp real pe același model este de obicei limitată de bandă și urmează cifra 16,000 GB/s. Benchmark-urile de generare a imaginilor prin difuzie se situează între cele două — pașii care consumă mult calcul utilizează bine nucleele tensor, în timp ce blocurile de atenție ating încă lățimea de bandă.
See the NVIDIA GB200 Superchip page for the full spec sheet and comparisons to related GPUs.