NVIDIA L40 memória-korlátozott vs számítás-korlátozott munkaterhelések
Válasz
NVIDIA L40 teljesítményfő adat: 181 FP16 TFLOPS, 90.5 FP32 TFLOPS, 864 GB/s sávszélesség, 48 GB VRAM.
Gyakorlati mérőszámokra átváltva: egy 7 milliárd paraméteres LLM FP16 tanítása ésszerű tömegméretekkel általában előbb telíti a számítási kapacitást, mint a sávszélességet; ugyanazon modell valós idejű kiszolgálása általában sávszélesség-korlátozott, és követi az 864 GB/s értéket. A diffúziós képgenerálás mérőszámai a kettő között helyezkednek el — a számításigényes lépések jól kihasználják a tenzormagokat, míg a figyelem blokkok még mindig érintik a sávszélességet.
Check the NVIDIA L40 page for complete specifications and related GPU matchups.