ファインチューニングでNVIDIA GeForce RTX 3080はA100より速いですか?
回答
NVIDIA GeForce RTX 3080 の生の計算性能はピークで 29.8 FP16 TFLOPS と 14.9 FP32 TFLOPS、760 GB/s のメモリ帯域幅で計算ユニットに供給されます。Ampere アーキテクチャはBF16/FP16/FP8混合精度に最適化されたテンソルコアを搭載しており、現代のトランスフォーマーに最も重要なフォーマットです。
実際のモデルトレーニングのスループットは大規模バッチで理論ピークに近くスケールし、小規模バッチはメモリ帯域幅制限となります。低レイテンシ推論では、Llama 70Bのようなトランスフォーマーのトークン毎秒は量子化戦略に大きく依存し、FP8/INT8は計算性能の上限を解放し、FP16は帯域幅制限となります。
The NVIDIA GeForce RTX 3080 page has the complete datasheet and side-by-side comparisons.