A largura de banda de memória de NVIDIA L40 é suficiente para inferência de produção de LLM?

Resposta

Versão resumida da ficha técnica NVIDIA L40: 48 GB GDDR6, 864 GB/s, 181 TFLOPS FP16, 90.5 TFLOPS FP32, Ada Lovelace (2023), 300W.

Versão longa: a placa é otimizada para multiplicação matricial de precisão mista em tensores grandes, que é exatamente o que o treinamento e a inferência em produção de transformadores demandam. A largura de banda é generosa o suficiente para evitar interrupções nas operações de atenção, e a capacidade de VRAM cobre tamanhos modernos de modelos sem necessidade de descarregamento para a memória da CPU.

Full specs, benchmarks, and comparisons are on the NVIDIA L40 page.

Mais FAQs sobre NVIDIA L40

Explore NVIDIA L40