Apakah NVIDIA GeForce RTX 3080 lebih cepat dari A100 untuk fine-tuning?
Jawaban
Komputasi mentah pada NVIDIA GeForce RTX 3080 mencapai puncak di 29.8 TFLOPS FP16 dan 14.9 TFLOPS FP32, dengan 760 GB/s bandwidth memori yang memberi makan unit komputasi. Arsitektur Ampere membawa tensor core yang dioptimalkan untuk presisi campuran BF16/FP16 / FP8 — format yang paling penting untuk transformer modern.
Throughput pelatihan model dunia nyata skala mendekati puncak teoretis pada ukuran batch besar; batch lebih kecil terikat memori. Untuk inferensi latensi rendah, token per detik pada transformer seperti Llama 70B sangat bergantung pada strategi kuantisasi — FP8/INT8 membuka batas komputasi, FP16 terikat bandwidth.
The NVIDIA GeForce RTX 3080 page has the complete datasheet and side-by-side comparisons.