NVIDIA GeForce RTX 4060 Ti carichi di lavoro limitati dalla memoria vs limitati dal calcolo
Risposta
Titolo delle prestazioni di NVIDIA GeForce RTX 4060 Ti: 22.1 TFLOPS FP16, 11 TFLOPS FP32, 288 GB/s di larghezza di banda, 16 GB di VRAM.
Convertito in benchmark pratici: l'addestramento di un LLM da 7 miliardi di parametri in FP16 con dimensioni di batch ragionevoli tipicamente satura il calcolo prima della larghezza di banda; il serving in tempo reale sullo stesso modello è solitamente limitato dalla larghezza di banda e segue il valore 288 GB/s. I benchmark di generazione di immagini per diffusione si collocano tra i due — le fasi intensive di calcolo utilizzano bene i tensor core, mentre i blocchi di attenzione toccano ancora la larghezza di banda.
The NVIDIA GeForce RTX 4060 Ti page has the complete datasheet and side-by-side comparisons.