NVIDIA GeForce RTX 3080 è più veloce di A100 per il fine-tuning?
Risposta
Il calcolo grezzo su NVIDIA GeForce RTX 3080 raggiunge un picco di 29.8 TFLOPS FP16 e 14.9 TFLOPS FP32, con 760 GB/s di larghezza di banda della memoria che alimenta le unità di calcolo. L'architettura Ampere porta tensor core ottimizzati per precisione mista BF16/FP16 / FP8 — i formati più importanti per i transformer moderni.
La produttività reale nell'addestramento del modello scala vicino ai picchi teorici con batch grandi; batch più piccoli sono limitati dalla memoria. Per l'inferenza a bassa latenza, i token al secondo su transformer come Llama 70B dipendono fortemente dalla strategia di quantizzazione — FP8/INT8 sbloccano il limite di calcolo, FP16 è limitato dalla larghezza di banda.
The NVIDIA GeForce RTX 3080 page has the complete datasheet and side-by-side comparisons.