Czy NVIDIA GeForce RTX 3070 Ti jest szybszy niż A100 w fine-tuningu?
Odpowiedź
Surowa moc obliczeniowa NVIDIA GeForce RTX 3070 Ti osiąga szczyt 21.7 TFLOPS FP16 i 10.8 TFLOPS FP32, z przepustowością pamięci 608 GB/s zasilającą jednostki obliczeniowe. Architektura Ampere wprowadza rdzenie tensorowe zoptymalizowane pod mieszane precyzje BF16/FP16 / FP8 — formaty najważniejsze dla nowoczesnych transformatorów.
Rzeczywista przepustowość treningu modeli skaluje się blisko teoretycznych szczytów przy dużych wsadach; mniejsze wsady są ograniczone przepustowością pamięci. Dla niskoopóźnieniowego wnioskowania liczba tokenów na sekundę na transformatorach takich jak Llama 70B zależy w dużym stopniu od strategii kwantyzacji — FP8/INT8 odblokowują limit obliczeniowy, FP16 jest ograniczone przepustowością.
Review full specs and related comparisons on the NVIDIA GeForce RTX 3070 Ti page.