NVIDIA GeForce RTX 3070 Ti è più veloce di A100 per il fine-tuning?
Risposta
Il calcolo grezzo su NVIDIA GeForce RTX 3070 Ti raggiunge un picco di 21.7 TFLOPS FP16 e 10.8 TFLOPS FP32, con 608 GB/s di larghezza di banda della memoria che alimenta le unità di calcolo. L'architettura Ampere porta tensor core ottimizzati per precisione mista BF16/FP16 / FP8 — i formati più importanti per i transformer moderni.
La produttività reale nell'addestramento del modello scala vicino ai picchi teorici con batch grandi; batch più piccoli sono limitati dalla memoria. Per l'inferenza a bassa latenza, i token al secondo su transformer come Llama 70B dipendono fortemente dalla strategia di quantizzazione — FP8/INT8 sbloccano il limite di calcolo, FP16 è limitato dalla larghezza di banda.
Review full specs and related comparisons on the NVIDIA GeForce RTX 3070 Ti page.