NVIDIA L40 मेमोरी-बाउंड बनाम कंप्यूट-बाउंड कार्यभार
उत्तर
NVIDIA L40 प्रदर्शन शीर्षक: 181 FP16 TFLOPS, 90.5 FP32 TFLOPS, 864 GB/s बैंडविड्थ, 48 GB VRAM।
व्यावहारिक बेंचमार्क में परिवर्तित: 7B-पैरामीटर LLM को FP16 में उचित बैच आकारों के साथ मॉडल प्रशिक्षण आमतौर पर बैंडविड्थ से पहले गणना संतृप्त करता है; उसी मॉडल पर वास्तविक समय सेवा आमतौर पर बैंडविड्थ-सीमित होती है और 864 GB/s आंकड़े का अनुसरण करती है। डिफ्यूजन छवि निर्माण बेंचमार्क दोनों के बीच स्थित है — गणना-भारी चरण टेंसर कोर का अच्छा उपयोग करते हैं, जबकि ध्यान ब्लॉक अभी भी बैंडविड्थ को छूते हैं।
Check the NVIDIA L40 page for complete specifications and related GPU matchups.