NVIDIA L40 งานที่จำกัดด้วยหน่วยความจำเทียบกับงานที่จำกัดด้วยการคำนวณ

คำตอบ

หัวข้อประสิทธิภาพ NVIDIA L40: 181 FP16 TFLOPS, 90.5 FP32 TFLOPS, แบนด์วิดท์ 864 GB/s, VRAM 48 GB

แปลงเป็นการทดสอบประสิทธิภาพจริง: การฝึกโมเดล LLM ขนาด 7 พันล้านพารามิเตอร์ใน FP16 ด้วยขนาดแบตช์ที่เหมาะสมมักจะเต็มประสิทธิภาพการคำนวณก่อนแบนด์วิดท์; การให้บริการแบบเรียลไทม์บนโมเดลเดียวกันมักถูกจำกัดด้วยแบนด์วิดท์และสอดคล้องกับตัวเลข 864 GB/s การทดสอบการสร้างภาพ diffusion อยู่ระหว่างสองแบบ — ขั้นตอนที่เน้นการคำนวณหนักใช้ tensor cores ได้ดี ขณะที่บล็อก attention ยังคงใช้งานแบนด์วิดท์

Check the NVIDIA L40 page for complete specifications and related GPU matchups.

คำถามที่พบบ่อยเพิ่มเติมเกี่ยวกับ NVIDIA L40

สำรวจ NVIDIA L40