NVIDIA A10Gのテンソルコア性能
回答
NVIDIA A10G は Ampere カードで、70 FP16 TFLOPS と 35 FP32 TFLOPS、そして 600 GB/s のメモリ帯域幅を提供します。これは現代のモデルトレーニングとリアルタイムサービングワークロードを大規模に処理するのに十分な計算性能です。
ベンチマークでは、NVIDIA A10G は大規模な行列積でテンソルコアが飽和するトランスフォーマースタイルのモデルで特に優れた性能を示します。拡散モデル、音声、ビジョンワークロードも旧世代に比べて大幅な高速化を実現しています。レイテンシに敏感な本番リアルタイムサービングでは、NVIDIA A10G は多くの製品が目標とする30〜50トークン/秒の閾値を大幅に上回るトークン毎秒を大規模言語モデルで通常達成します。
The NVIDIA A10G page has the complete datasheet and side-by-side comparisons.