Достаточна ли пропускная способность памяти NVIDIA GeForce RTX 4080 SUPER для инференса в производстве LLM?
Ответ
Краткая версия спецификации NVIDIA GeForce RTX 4080 SUPER: 16 ГБ GDDR6X, 736 ГБ/с, 52.4 TFLOPS FP16, 26.2 TFLOPS FP32, Ada Lovelace (2024), 320 Вт.
Полная версия: карта оптимизирована для матричного умножения с переменной точностью на больших тензорах, что именно требуется для обучения трансформеров и производственного инференса. Пропускная способность достаточно велика, чтобы избежать задержек при операциях внимания, а объём видеопамяти покрывает современные размеры моделей без необходимости выгрузки в память CPU.
The NVIDIA GeForce RTX 4080 SUPER page has the complete datasheet and side-by-side comparisons.