How well does NVIDIA L4 scale across multiple GPUs?
回答
121 FP16 TFLOPS and 300 GB/s of memory bandwidth put NVIDIA L4 squarely in the class of accelerators targeted at modern transformer workloads. FP32 caps at 30.3 TFLOPS, which still handles most non-AI scientific compute comfortably.
For training from scratch, token throughput roughly tracks FP16 TFLOPS. For production inference on foundation models, throughput tracks bandwidth. Real-world numbers will depend heavily on the framework stack (PyTorch, TensorRT-LLM, vLLM), and can vary 30-50% depending on how aggressively you quantise.
The cheapest NVIDIA L4 cloud access right now is on RunPod at $0.39/hr.
NVIDIA L4に関するさらに多くのFAQ
RunPod GPUプロバイダーのレビューと主要情報 (4月 2026)
RunPodの概要:最大資金、利益分配、ドローダウン規則、レバレッジ、取引商品、支払いスケジュール、支払い方法、取引許可、KYC。データ検証日 4月 2026。
|
RunPod
AIのために構築されたクラウド — サーバーレス推論から即時のマルチノードクラスタまで、GPUワークロードをオンデマンドで展開・スケール可能。
|
|
|---|---|
| 概要 | |
| Trustpilot評価 | 3.7 |
| 本社所在地 | United States |
| プロバイダータイプ | GPU特化型 |
| 最適用途 | AIトレーニング、推論、ファインチューニング、Stable Diffusion、バッチ処理、レンダリング、研究、LLMサービング、生成AI |
| GPUハードウェア | |
| GPUモデル | B300、B200、H200、H100 SXM、H100 PCIe、H100 NVL、MI300X、A100 SXM、A100 PCIe、RTX 5090、RTX PRO 6000、L40S、L40、RTX 6000 Ada、RTX 5000 Ada、RTX A6000、RTX A5000、RTX 4090、RTX 4080 SUPER、RTX 4080、RTX 4070 Ti、RTX 3090 Ti、RTX 3090、RTX 3080 Ti、RTX 3080、RTX 3070、A40、A30、A2、L4 |
| 最大VRAM(GB) | 288 |
| インスタンスあたり最大GPU数 | 8 |
| インターコネクト | NVLink |
| 価格 | |
| 開始価格($/時) | $0.06/hr |
| 請求単位 | 毎秒 |
| スポット/プリエンプティブル | はい |
| 予約割引 | 15〜29%(1ヶ月〜1年プラン) |
| 無料クレジット | 最初の10ドル使用後に5〜500ドルのボーナス |
| 転送料金 | なし(無料) |
| ストレージ | コンテナ/ボリューム(0.10ドル/GB/月)、アイドルボリューム(0.20ドル/GB/月)、ネットワークストレージ(0.07ドル/GB/月 1TB) |
| インフラストラクチャ | |
| リージョン | 31のグローバルリージョン |
| 稼働率SLA | 99.99% |
| 開発者体験 | |
| フレームワーク | PyTorch、TensorFlow、JAX、ONNX、CUDA |
| Docker対応 | はい |
| SSHアクセス | はい |
| Jupyterノートブック | はい |
| API / CLI | はい |
| セットアップ時間 | 即時 |
| Kubernetesサポート | いいえ |
| ビジネス条件 | |
| 最低利用期間 | なし |
| コンプライアンス | SOC 2 タイプII |
RunPod