مزودو السحابة لوحدات معالجة الرسومات مع NVLink أو InfiniBand
تعد وصلات وحدات معالجة الرسومات عالية النطاق الترددي مثل NVLink (حتى 900 جيجابايت/ثانية) وInfiniBand (حتى 400 جيجابت/ثانية) ضرورية لتدريب متعدد الوحدات والعديد من العقد بكفاءة. بدون وصلات سريعة، يصبح تزامن التدرجات عنق الزجاجة في التدريب الموزع، مما يقلل بشكل كبير من كفاءة التوسع. تسرد هذه الدليل المزودين الذين يقدمون اتصال NVLink أو InfiniBand لحالات وحدات معالجة الرسومات الخاصة بهم.
United States ما الذي يفعله NVLink و InfiniBand فعليًا عند استئجار حوسبة متعددة وحدات معالجة الرسومات
يحل NVLink و InfiniBand نفس المشكلة الأساسية من جانبين مختلفين للجهاز: نقل البيانات بين وحدات معالجة الرسومات بسرعة كافية بحيث تقضي المعجلات وقتها في الحوسبة بدلاً من الانتظار. يقوم الفلتر أعلاه بتضييق القائمة إلى مثيلات سحابية تكشف عن واحد أو كلا هذين الاتصالين. لا يمكن استبدالهما — أحدهما هو نسيج داخل العقدة يربط وحدات معالجة الرسومات داخل خادم واحد، والآخر هو نسيج بين العقد يربط الخوادم معًا في مجموعة. لأي عبء عمل يمتد لأكثر من وحدة معالجة رسومات واحدة، غالبًا ما يكون الاتصال هو الفرق بين التوسع شبه الخطي وإعداد حيث لا يساعد إضافة وحدات معالجة الرسومات كثيرًا.
NVLink: المسار السريع بين وحدات معالجة الرسومات داخل صندوق واحد
NVLink هو رابط مباشر من NVIDIA بين وحدات معالجة الرسومات. بدلاً من توجيه الحركة عبر ناقل PCIe للمضيف والمعالج المركزي، يربط NVLink وحدات معالجة الرسومات ببعضها البعض (وعلى بعض المنصات عبر مفتاح تقاطع NVSwitch) بحيث يمكن لكل وحدة معالجة رسومات في العقدة التحدث إلى كل وحدة معالجة رسومات أخرى بعرض نطاق عالٍ وزمن انتقال منخفض. النتيجة العملية عند استئجار مثيل مجهز بـ NVLink:
- عرض نطاق ترددي أعلى بكثير بين وحدات معالجة الرسومات مقارنة بالعقد التي تعتمد فقط على PCIe، وهو أمر مهم كلما كان لابد من تبادل التدرجات أو التنشيطات أو شظايا النموذج في كل خطوة.
- ذاكرة مجمعة عبر وحدات معالجة الرسومات عمليًا — يمكن تقسيم نموذج أكبر من ذاكرة VRAM لوحدة معالجة رسومات واحدة عبر نطاق NVLink مع بقاء حركة المرور بين وحدات معالجة الرسومات على النسيج السريع بدلاً من الزحف عبر PCIe.
- انخفاض في عبء المزامنة للعمليات الجماعية مثل all-reduce، التي تهيمن على تدريب البيانات الموزعة.
يعيش NVLink داخل عقدة واحدة، لذا فإن نطاقه عادة ما يكون 2 أو 4 أو 8 وحدات معالجة رسومات حسب تصميم الخادم. إذا أعلن مزود في القائمة أعلاه عن عقدة 8 وحدات معالجة رسومات “مع NVLink”، فهذا يعني أن تلك البطاقات الثمانية مرتبطة ارتباطًا وثيقًا. ولا يشير ذلك، بمفرده، إلى كيفية اتصال تلك العقدة بالعقد الأخرى.
InfiniBand: النسيج الذي يحول العديد من الخوادم إلى مجموعة واحدة
InfiniBand هي تقنية شبكات تُستخدم لربط خوادم وحدات معالجة الرسومات المنفصلة. عندما تتجاوز وظائف التدريب عقدة واحدة، ينتقل الاختناق من داخل الصندوق إلى بين الصناديق، ويمكن أن يعيق الشبكات الإيثرنت العادية وحدات معالجة الرسومات. يعالج InfiniBand هذا بمعدل نقل عالي جدًا لكل رابط، وزمن انتقال منخفض ومتوقع، و RDMA (الوصول المباشر عن بعد إلى الذاكرة)، الذي يسمح لخادم واحد بقراءة أو كتابة ذاكرة خادم آخر دون إشراك المعالج المركزي في أي من الجانبين. مقترنًا بـ GPUDirect RDMA، يمكن للبيانات أن تنتقل من وحدة معالجة رسومات إلى أخرى عبر العقد مع تجاوز نسخ ذاكرة المضيف إلى حد كبير.
لتدريب متعدد العقد، هذا ما يحافظ على كفاءة التوسع. السبب في أن مجموعة من، لنقل المثال، عشرات أو مئات وحدات معالجة الرسومات يمكنها تدريب نموذج كبير في وقت معقول هو أن نسيج بين العقد يواكب الاتصال الجماعي الذي يتطلبه الخوارزم. إذا انتقلت إلى شبكات عادية، يمكن أن يقضي نفس العمل جزءًا كبيرًا من وقته الفعلي في الانتظار على الشبكة.
أي أحمال العمل تحتاج هذا فعليًا
يكون التصفية لـ NVLink أو InfiniBand منطقية عندما يكون الاتصال، وليس فقط الحوسبة الخام، في المسار الحرج:
- تدريب النماذج الكبيرة وضبطها الدقيق التي تقسم المعلمات أو حالة المحسن أو الطبقات عبر وحدات معالجة الرسومات (التوازي التنسوري، أو التوازي الخطي، أو التوازي الكامل المشطر للبيانات) — تولد هذه الأساليب حركة مرور مستمرة بين وحدات معالجة الرسومات وتستفيد أكثر من NVLink داخل العقدة و InfiniBand عبر العقد.
- التدريب الموزع متعدد العقد حيث لا يتسع العمل في خادم واحد — هنا يكون InfiniBand العامل الحاسم لكفاءة التوسع.
- الحوسبة عالية الأداء والمحاكاة العلمية مع اتصال بين العمليات محكم، والتي اعتمدت على InfiniBand و RDMA لسنوات.
- الاستدلال على النماذج الكبيرة أو السياقات الكبيرة التي تقسم نموذجًا واحدًا عبر عدة وحدات معالجة رسومات، حيث يقلل NVLink من عقوبة زمن الانتقال للوصول إلى الانتباه والوزن عبر وحدات معالجة الرسومات.
إنه مبالغة حقيقية بالنسبة للعمل على وحدة معالجة رسومات واحدة. ضبط نموذج صغير، وتشغيل استدلال دفعات يناسب بطاقة واحدة، ومعظم وظائف العرض، والتجارب كلها تعمل جيدًا على وحدة معالجة رسومات مستقلة. دفع علاوة مقابل عقدة مترابطة بإحكام أو مجموعة InfiniBand لا يجلب أي فائدة إذا لم يعبر عملك حدود وحدة معالجة الرسومات.
ما الذي يجب التحقق منه قبل الاستئجار
غالبًا ما يتم الخلط بين الاتصالين في النصوص التسويقية، لذا تحقق من التفاصيل مقابل المقارنة أعلاه:
- النطاق — تأكد مما إذا كانت القائمة تعني NVLink (ربط وحدات معالجة الرسومات داخل العقدة) أو InfiniBand (شبكات بين العقد). يمكن أن يحتوي مثيل عقدة واحدة على NVLink ولا يحتوي على InfiniBand على الإطلاق.
- التوبولوجيا والعرض — كم عدد وحدات معالجة الرسومات التي تشترك في نطاق NVLink (NVSwitch كامل من الكل إلى الكل مقابل الجسور الجزئية)، ومعدل رابط InfiniBand وما إذا كان RDMA/GPUDirect مفعلًا.
- الجيل — تحمل أجيال وحدات معالجة الرسومات الأحدث NVLink بعرض نطاق أعلى؛ تسمية “NVLink” وحدها لا تخبرك بالسرعة.
- توفر متعدد العقد — ما إذا كان يمكنك بالفعل حجز عدة عقد مترابطة، وما إذا كانت تقع في نفس النسيج بدلاً من التشتت عبر مركز البيانات.
- دعم البرمجيات — أن ترى NCCL و MPI وإطار عملك النسيج وتستخدمه؛ فإن التهيئة الخاطئة تعود بصمت إلى المسارات البطيئة.
من حيث التكلفة والتوفر، تقع المثيلات الغنية بالاتصالات نحو الطرف الأعلى من الطيف. تستخدم العقد متعددة وحدات معالجة الرسومات المجهزة بـ NVLink والمجموعات المتصلة بـ InfiniBand أجهزة متميزة وتكون مطلوبة باستمرار، لذا فإن السعة عند الطلب أكثر ضيقًا وخيارات النقاط أو القابلة للمقاطعة أقل من وحدات معالجة الرسومات الفردية العادية. غالبًا ما تكون تخصيصات InfiniBand متعددة العقد محكومة، محجوزة، أو تباع في كتل أكبر. اعتبر الأسعار في الجدول أعلاه كمرجع مباشر، حيث تتحرك الأسعار وتختلف حسب المزود.
الأسئلة المتكررة
هل أحتاج إلى كل من NVLink و InfiniBand؟
يعتمد ذلك على الحجم. يحتاج عمل متعدد وحدات معالجة الرسومات في عقدة واحدة فقط إلى NVLink. في اللحظة التي يمتد فيها تدريبك عبر عدة خوادم، ترغب أيضًا في وجود InfiniBand لربط تلك العقد — يعمل الاثنان على طبقات مختلفة، لذا تعتمد مجموعة كبيرة عادة على NVLink داخل كل صندوق و InfiniBand بين الصناديق.
هل سيعمل عبء العمل الخاص بي على وحدة معالجة رسومات واحدة بشكل أسرع على مثيل NVLink أو InfiniBand؟
لا. كلا الاتصالين مهمان فقط عندما تتحرك البيانات بين وحدات معالجة الرسومات أو بين العقد. عبء العمل الذي يناسب وحدة معالجة رسومات واحدة لا يلمس أيًا من النسيجين، لذا ستدفع علاوة مقابل سعة لا يمكنك استخدامها. قم بالتصفية لهذين فقط عندما تتوسع إلى أكثر من وحدة معالجة رسومات.
لماذا يهم الاتصال أكثر من مواصفات كل وحدة معالجة رسومات في وظائف التدريب الكبيرة؟
يقضي التدريب الموزع جزءًا كبيرًا من كل خطوة في تبادل التدرجات والتنشيطات. إذا لم يستطع النسيج مواكبة ذلك، تبقى وحدات معالجة الرسومات خاملة أثناء انتظارها للمزامنة، ويؤدي إضافة المزيد من وحدات معالجة الرسومات إلى عوائد متناقصة. الاتصال السريع هو ما يحافظ على التوسع شبه الخطي مع إضافة المعجلات.
هل NVLink متوفر في كل مثيل متعدد وحدات معالجة الرسومات؟
لا. بعض عقد متعددة وحدات معالجة الرسومات تربط بطاقاتها فقط عبر PCIe، الذي له عرض نطاق ترددي أقل بكثير بين وحدات معالجة الرسومات. وجود عدة وحدات معالجة الرسومات لا يضمن NVLink، لذا تحقق من الاتصال صراحة في المقارنة أعلاه بدلاً من افتراضه من عدد وحدات معالجة الرسومات.