Достаточна ли пропускная способность памяти NVIDIA L40 для инференса в производстве LLM?
Ответ
Краткая версия спецификации NVIDIA L40: 48 ГБ GDDR6, 864 ГБ/с, 181 TFLOPS FP16, 90.5 TFLOPS FP32, Ada Lovelace (2023), 300 Вт.
Полная версия: карта оптимизирована для матричного умножения с переменной точностью на больших тензорах, что именно требуется для обучения трансформеров и производственного инференса. Пропускная способность достаточно велика, чтобы избежать задержек при операциях внимания, а объём видеопамяти покрывает современные размеры моделей без необходимости выгрузки в память CPU.
Full specs, benchmarks, and comparisons are on the NVIDIA L40 page.