How well does NVIDIA L4 scale across multiple GPUs?

答案

121 FP16 TFLOPS and 300 GB/s of memory bandwidth put NVIDIA L4 squarely in the class of accelerators targeted at modern transformer workloads. FP32 caps at 30.3 TFLOPS, which still handles most non-AI scientific compute comfortably.

For training from scratch, token throughput roughly tracks FP16 TFLOPS. For production inference on foundation models, throughput tracks bandwidth. Real-world numbers will depend heavily on the framework stack (PyTorch, TensorRT-LLM, vLLM), and can vary 30-50% depending on how aggressively you quantise.

The cheapest NVIDIA L4 cloud access right now is on RunPod at $0.39/hr.

更多关于 NVIDIA L4 的常见问题

RunPod GPU提供商评测及关键事实(四月 2026)

RunPod概览:最大资金、利润分成、回撤规则、杠杆、工具、支付计划、支付方式、交易权限及KYC。数据验证于四月 2026。

RunPod GPU提供商评测及关键事实(四月 2026)
RunPod
为人工智能打造的云平台 — 从无服务器推理到按需即时多节点集群,部署和扩展GPU工作负载。
Visit RunPod
概览
Trustpilot 评分 3.7
总部 United States
供应商类型 以GPU为中心
适用场景 AI训练、推理、微调、Stable Diffusion、批处理、渲染、研究、大型语言模型服务、生成式AI
GPU硬件
GPU 型号 B300 B200 H200 H100 SXM H100 PCIe H100 NVL MI300X A100 SXM A100 PCIe RTX 5090 RTX PRO 6000 L40S L40 RTX 6000 Ada RTX 5000 Ada RTX A6000 RTX A5000 RTX 4090 RTX 4080 SUPER RTX 4080 RTX 4070 Ti RTX 3090 Ti RTX 3090 RTX 3080 Ti RTX 3080 RTX 3070 A40 A30 A2 L4
最大显存 (GB) 288
每实例最大 GPU 数 8
互联 NVLink
定价
起始价格 ($/小时) $0.06/hr
计费粒度 每秒
竞价/可抢占
预留折扣 15-29%(1个月至1年计划)
免费额度 首次消费满10美元后奖励5-500美元
出站费用 无(免费)
存储 容器/卷(每GB每月0.10美元),空闲卷(每GB每月0.20美元),网络存储(每GB每月0.07美元 1TB)
基础设施
区域 31个全球区域
正常运行时间 SLA 99.99%
开发者体验
框架 PyTorch TensorFlow JAX ONNX CUDA
Docker 支持
SSH 访问
Jupyter 笔记本
API / 命令行界面
设置时间 即时
Kubernetes 支持
业务条款
最小承诺
合规性 SOC 2 类型 II
RunPod

探索 NVIDIA L4