NVIDIA L4 在多 GPU 之间的扩展性能如何？

答案

121 FP16 TFLOPS 和 300 GB/s 内存带宽使 NVIDIA L4 明确属于面向现代变换器工作负载的加速器类别。FP32 峰值为 30.3 TFLOPS，仍能轻松处理大多数非 AI 科学计算。

从零开始训练时，令牌吞吐量大致与 FP16 TFLOPS 成正比。基础模型的生产推理吞吐量则与带宽相关。实际数字高度依赖框架堆栈（PyTorch、TensorRT-LLM、vLLM），且根据量化程度不同可变化 30-50%。

The cheapest NVIDIA L4 cloud access right now is on RunPod at $0.39/hr.

RunPod概览：最大资金、利润分成、回撤规则、杠杆、工具、支付计划、支付方式、交易权限及KYC。数据验证于六月 2026。

RunPod GPU提供商评测及关键事实（六月 2026）
	RunPod 为人工智能打造的云平台 — 从无服务器推理到按需即时多节点集群，部署和扩展GPU工作负载。 Visit RunPod
概览
Trustpilot 评分	3.5
总部	United States
供应商类型	以GPU为中心
适用场景	AI训练、推理、微调、Stable Diffusion、批处理、渲染、研究、大型语言模型服务、生成式AI
GPU硬件
GPU 型号	B300 B200 H200 H100 SXM H100 PCIe H100 NVL MI300X A100 SXM A100 PCIe RTX 5090 RTX PRO 6000 L40S L40 RTX 6000 Ada RTX 5000 Ada RTX A6000 RTX A5000 RTX 4090 RTX 4080 SUPER RTX 4080 RTX 4070 Ti RTX 3090 Ti RTX 3090 RTX 3080 Ti RTX 3080 RTX 3070 A40 A30 A2 L4
最大显存 (GB)	288
每实例最大 GPU 数	8
互联	NVLink
定价
起始价格 ($/小时)	$0.06/hr
计费粒度	每秒
竞价/可抢占	是
预留折扣	15-29%（1个月至1年计划）
免费额度	首次消费满10美元后奖励5-500美元
出站费用	无（免费）
存储	容器/卷（每GB每月0.10美元），空闲卷（每GB每月0.20美元），网络存储（每GB每月0.07美元 1TB）
基础设施
区域	31个全球区域
正常运行时间 SLA	99.99%
开发者体验
框架	PyTorch TensorFlow JAX ONNX CUDA
Docker 支持	是
SSH 访问	是
Jupyter 笔记本	是
API / 命令行界面	是
设置时间	即时
Kubernetes 支持	否
业务条款
最小承诺	无
合规性	SOC 2 类型 II