Gyorsabb-e a NVIDIA GeForce RTX 3080 az A100-nál finomhangolásnál?
Válasz
A nyers számítási teljesítmény NVIDIA GeForce RTX 3080-on csúcson 29.8 FP16 TFLOPS és 14.9 FP32 TFLOPS, amelyet 760 GB/s memória-sávszélesség táplál a számítási egységekhez. A Ampere architektúra BF16/FP16 / FP8 vegyes pontosságra optimalizált tenzormagokat hoz — ezek a formátumok a legfontosabbak a modern transzformerek számára.
A valós modell tanítási áteresztőképesség közelíti az elméleti csúcsokat nagy tömegméreteknél; kisebb tömegek memória-korlátozottak. Alacsony késleltetésű inferenciánál a token/másodperc értékek, például a Llama 70B-nél, erősen függenek a kvantálási stratégiától — az FP8/INT8 feloldja a számítási plafont, az FP16 pedig sávszélesség-korlátozott.
The NVIDIA GeForce RTX 3080 page has the complete datasheet and side-by-side comparisons.