Jak dobrze NVIDIA GeForce RTX 3080 Ti skaluje się na wielu GPU?
Odpowiedź
Nagłówek wydajności NVIDIA GeForce RTX 3080 Ti: 34.1 TFLOPS FP16, 17 TFLOPS FP32, 912 GB/s przepustowości, 12 GB pamięci VRAM.
Przekładając na praktyczne benchmarki: trening modelu LLM o 7 miliardach parametrów w FP16 z rozsądnymi rozmiarami wsadów zazwyczaj nasyca moc obliczeniową przed przepustowością; obsługa w czasie rzeczywistym tego samego modelu jest zwykle ograniczona przepustowością i odpowiada wartości 912 GB/s. Benchmarki generowania obrazów metodą dyfuzji plasują się pomiędzy tymi dwoma — etapy intensywnie obliczeniowe dobrze wykorzystują rdzenie tensorowe, podczas gdy bloki uwagi nadal korzystają z przepustowości.
See the NVIDIA GeForce RTX 3080 Ti page for the full spec sheet and comparisons to related GPUs.