NVIDIA GH200 Superchip é bom o suficiente para inferência em produção?
Resposta
A resposta curta: NVIDIA GH200 Superchip opera a 989 TFLOPS FP16 com 4,000 GB/s de largura de banda de memória. A resposta longa depende do que você executa.
Para treinamento denso FP16 com grandes lotes, NVIDIA GH200 Superchip satura os núcleos tensor e entrega throughput próximo ao pico de FLOPS. Para serving limitado por memória em modelos base de contexto longo, a largura de banda domina — o número 4,000 GB/s importa mais que os TFLOPS de destaque. Para computação científica, FP32 a 494.5 TFLOPS é o número relevante e coloca NVIDIA GH200 Superchip alinhado com as expectativas HPC da sua classe Hopper.
Check the NVIDIA GH200 Superchip page for complete specifications and related GPU matchups.