NVIDIA L40 میموری-باؤنڈ بمقابلہ کمپیوٹ-باؤنڈ ورک لوڈز
جواب
NVIDIA L40 کی کارکردگی کا سرنامہ: 181 FP16 TFLOPS، 90.5 FP32 TFLOPS، 864 GB/s بینڈوڈتھ، 48 GB VRAM۔
عملی بینچ مارکس میں تبدیل: 7B پیرامیٹر LLM کی FP16 میں ماڈل تربیت معقول بیچ سائز کے ساتھ عام طور پر بینڈوڈتھ سے پہلے کمپیوٹ کو سیر کرتی ہے؛ اسی ماڈل پر حقیقی وقت کی سروس عام طور پر بینڈوڈتھ-محدود ہوتی ہے اور 864 GB/s کے عدد کے مطابق ہوتی ہے۔ ڈفیوزن امیج جنریشن کے بینچ مارکس دونوں کے درمیان ہوتے ہیں — کمپیوٹ بھاری مراحل ٹینسر کورز کو اچھی طرح استعمال کرتے ہیں، جبکہ اٹینشن بلاکس اب بھی بینڈوڈتھ کو چھوتے ہیں۔
Check the NVIDIA L40 page for complete specifications and related GPU matchups.