ファインチューニングでNVIDIA GeForce RTX 3070 TiはA100より速いですか?

回答

NVIDIA GeForce RTX 3070 Ti の生の計算性能はピークで 21.7 FP16 TFLOPS と 10.8 FP32 TFLOPS、608 GB/s のメモリ帯域幅で計算ユニットに供給されます。Ampere アーキテクチャはBF16/FP16/FP8混合精度に最適化されたテンソルコアを搭載しており、現代のトランスフォーマーに最も重要なフォーマットです。

実際のモデルトレーニングのスループットは大規模バッチで理論ピークに近くスケールし、小規模バッチはメモリ帯域幅制限となります。低レイテンシ推論では、Llama 70Bのようなトランスフォーマーのトークン毎秒は量子化戦略に大きく依存し、FP8/INT8は計算性能の上限を解放し、FP16は帯域幅制限となります。

Review full specs and related comparisons on the NVIDIA GeForce RTX 3070 Ti page.

NVIDIA GeForce RTX 3070 Tiに関するさらに多くのFAQ

NVIDIA GeForce RTX 3070 Tiを探る