NVIDIA GeForce RTX 3070 Ti è più veloce di A100 per il fine-tuning?

Risposta

Il calcolo grezzo su NVIDIA GeForce RTX 3070 Ti raggiunge un picco di 21.7 TFLOPS FP16 e 10.8 TFLOPS FP32, con 608 GB/s di larghezza di banda della memoria che alimenta le unità di calcolo. L'architettura Ampere porta tensor core ottimizzati per precisione mista BF16/FP16 / FP8 — i formati più importanti per i transformer moderni.

La produttività reale nell'addestramento del modello scala vicino ai picchi teorici con batch grandi; batch più piccoli sono limitati dalla memoria. Per l'inferenza a bassa latenza, i token al secondo su transformer come Llama 70B dipendono fortemente dalla strategia di quantizzazione — FP8/INT8 sbloccano il limite di calcolo, FP16 è limitato dalla larghezza di banda.

Review full specs and related comparisons on the NVIDIA GeForce RTX 3070 Ti page.

Altre FAQ su NVIDIA GeForce RTX 3070 Ti

Esplora NVIDIA GeForce RTX 3070 Ti