NVLink বা InfiniBand সহ ক্লাউড GPU প্রদানকারী
NVLink (৯০০ GB/s পর্যন্ত) এবং InfiniBand (৪০০ Gb/s পর্যন্ত) এর মতো উচ্চ-ব্যান্ডউইথ GPU ইন্টারকানেক্টগুলি কার্যকর মাল্টি-GPU এবং মাল্টি-নোড প্রশিক্ষণের জন্য অপরিহার্য। দ্রুত ইন্টারকানেক্ট ছাড়া, গ্রেডিয়েন্ট সিঙ্ক্রোনাইজেশন বিতরণকৃত প্রশিক্ষণে বাধা হয়ে দাঁড়ায়, যা স্কেলিং দক্ষতা উল্লেখযোগ্যভাবে কমিয়ে দেয়। এই গাইডটি তাদের GPU ইনস্ট্যান্সের জন্য NVLink বা InfiniBand সংযোগ প্রদানকারী প্রদানকারীদের তালিকা দেয়।
এই গাইডের জন্য এখনও কোনো মিল থাকা GPU প্রদানকারী পাওয়া যায়নি। শীঘ্রই আবার দেখুন।
যখন আপনি মাল্টি-GPU কম্পিউট ভাড়া নেন, তখন NVLink এবং InfiniBand আসলে কী করে
NVLink এবং InfiniBand একই মৌলিক সমস্যার সমাধান করে যন্ত্রের দুই ভিন্ন দিক থেকে: GPUs এর মধ্যে ডেটা দ্রুত স্থানান্তর করা যাতে অ্যাক্সেলেটরগুলি অপেক্ষা না করে বরং গণনা করতে পারে। উপরের ফিল্টারটি সেই ক্লাউড ইনস্ট্যান্সগুলোকে সংকুচিত করে যা এই দুইটি ইন্টারকানেক্টের এক বা উভয়টি প্রকাশ করে। এগুলো পরস্পরের পরিবর্তে ব্যবহারযোগ্য নয় — একটি ইনট্রা-নোড ফ্যাব্রিক যা একক সার্ভারের ভিতরে GPUs গুলোকে সংযুক্ত করে, এবং অন্যটি একটি ইন্টার-নোড ফ্যাব্রিক যা সার্ভারগুলোকে একত্রে একটি ক্লাস্টারে সংযুক্ত করে। যে কোনও ওয়ার্কলোডের জন্য যা একাধিক GPU জুড়ে বিস্তৃত, ইন্টারকানেক্ট প্রায়শই প্রায়-রৈখিক স্কেলিং এবং এমন একটি সেটআপের মধ্যে পার্থক্য তৈরি করে যেখানে GPU যোগ করলেও খুব কম সাহায্য করে।
NVLink: এক বাক্সের ভিতরে GPUs এর মধ্যে দ্রুত লেন
NVLink হল NVIDIA এর সরাসরি GPU-থেকে-GPU লিঙ্ক। হোস্ট PCIe বাস এবং CPU এর মাধ্যমে ট্রাফিক রুট করার পরিবর্তে, NVLink GPUs গুলোকে একে অপরের সাথে সংযুক্ত করে (এবং কিছু প্ল্যাটফর্মে NVSwitch ক্রসবারের মাধ্যমে) যাতে নোডের প্রতিটি GPU উচ্চ ব্যান্ডউইথ এবং কম লেটেন্সিতে অন্য প্রতিটি GPU এর সাথে কথা বলতে পারে। NVLink-সজ্জিত ইনস্ট্যান্স ভাড়া নিলে ব্যবহারিক সুবিধা হল:
- PCIe-শুধুমাত্র নোডের তুলনায় অনেক বেশি GPU-থেকে-GPU ব্যান্ডউইথ, যা গুরুত্বপূর্ণ যখন প্রতিটি ধাপে গ্রেডিয়েন্ট, অ্যাক্টিভেশন বা মডেল শার্ড বিনিময় করতে হয়।
- GPU গুলোর মধ্যে পুল করা মেমোরি — একটি GPU এর VRAM এর জন্য খুব বড় মডেল NVLink ডোমেইনে ভাগ করা যায়, যেখানে ক্রস-GPU ট্রাফিক দ্রুত ফ্যাব্রিকে থাকে, PCIe এর মাধ্যমে ধীর গতিতে নয়।
- কম সিঙ্ক্রোনাইজেশন ওভারহেড যেমন অল-রিডিউসের মতো সম্মিলিত অপারেশনের জন্য, যা ডেটা-প্যারালাল ট্রেনিংয়ে প্রধান।
NVLink একটি একক নোডের ভিতরে থাকে, তাই এর পরিধি সাধারণত সার্ভার ডিজাইনের উপর নির্ভর করে ২, ৪, বা ৮ GPU। উপরের তালিকার কোনও প্রদানকারী যদি “NVLink সহ ৮-GPU নোড” বিজ্ঞাপন দেয়, তার মানে ওই আটটি কার্ড ঘনিষ্ঠভাবে সংযুক্ত। এটি নিজে থেকেই বলে না যে সেই নোডটি অন্য নোডের সাথে কীভাবে সংযুক্ত।
InfiniBand: ফ্যাব্রিক যা অনেক সার্ভারকে এক ক্লাস্টারে পরিণত করে
InfiniBand হল একটি নেটওয়ার্কিং প্রযুক্তি যা পৃথক GPU সার্ভারগুলোকে সংযুক্ত করতে ব্যবহৃত হয়। যখন ট্রেনিং কাজ একক নোডের বাইরে চলে যায়, তখন বটলনেক বাক্সের ভিতর থেকে বাক্সের বাইরে চলে যায়, এবং সাধারণ ইথারনেট নেটওয়ার্কিং GPUs কে থামিয়ে দিতে পারে। InfiniBand এই সমস্যার সমাধান করে খুব উচ্চ লিঙ্ক থ্রুপুট, কম এবং পূর্বানুমানযোগ্য লেটেন্সি, এবং RDMA (রিমোট ডাইরেক্ট মেমোরি অ্যাক্সেস) এর মাধ্যমে, যা একটি সার্ভারকে অন্য সার্ভারের মেমোরি CPU ছাড়াই পড়তে বা লিখতে দেয়। GPUDirect RDMA এর সাথে মিলিয়ে, ডেটা নোডগুলোর মধ্যে GPU থেকে GPU তে স্থানান্তরিত হতে পারে হোস্ট মেমোরি কপি প্রায় এড়িয়ে।
মাল্টি-নোড ট্রেনিংয়ের জন্য, এটি স্কেলিংকে দক্ষ রাখে। ধরুন, কয়েক ডজন বা শত শত GPU এর একটি ক্লাস্টার একটি বড় মডেল যুক্তিসঙ্গত সময়ে ট্রেন করতে পারে কারণ ইন্টার-নোড ফ্যাব্রিক অ্যালগরিদমের সম্মিলিত যোগাযোগের সাথে তাল মিলিয়ে চলে। সাধারণ নেটওয়ার্কিং এলে একই কাজ তার ওয়াল-ক্লক সময়ের বড় অংশ নেটওয়ার্কের অপেক্ষায় কাটাতে পারে।
কোন ওয়ার্কলোডগুলো আসলে এটি প্রয়োজন
NVLink বা InfiniBand এর জন্য ফিল্টার করা তখনই যুক্তিযুক্ত যখন যোগাযোগ, শুধুমাত্র কাঁচা কম্পিউট নয়, সমালোচনামূলক পথের অংশ:
- বড় মডেল ট্রেনিং এবং ফাইন-টিউনিং যা প্যারামিটার, অপটিমাইজার স্টেট, বা লেয়ারগুলো GPUs জুড়ে ভাগ করে (টেনসর, পাইপলাইন, বা সম্পূর্ণ শার্ডেড ডেটা প্যারালালিজম) — এই পদ্ধতিগুলো ক্রমাগত ক্রস-GPU ট্রাফিক তৈরি করে এবং নোডের ভিতরে NVLink এবং নোডগুলোর মধ্যে InfiniBand থেকে সর্বাধিক লাভবান হয়।
- মাল্টি-নোড বিতরণকৃত ট্রেনিং যেখানে কাজটি এক সার্ভারে ফিট হয় না — এখানে InfiniBand স্কেলিং দক্ষতার জন্য নির্ধারক।
- HPC এবং বৈজ্ঞানিক সিমুলেশন যেখানে ঘনিষ্ঠ ইন্টার-প্রসেস যোগাযোগ থাকে, যা বছর ধরে InfiniBand এবং RDMA এর উপর নির্ভর করে আসছে।
- বড়-কনটেক্সট বা বড় মডেল ইনফারেন্স যা একটি মডেল একাধিক GPU তে ভাগ করে, যেখানে NVLink ক্রস-GPU অ্যাটেনশন এবং ওজন অ্যাক্সেসের লেটেন্সি জরিমানা কমায়।
এটি একক-GPU কাজের জন্য প্রকৃতপক্ষে অতিরিক্ত। ছোট মডেল ফাইন-টিউনিং, একটি কার্ডে ফিট করা ব্যাচ ইনফারেন্স চালানো, বেশিরভাগ রেন্ডারিং কাজ এবং পরীক্ষা-নিরীক্ষা একক GPU তে ভালো চলে। যদি আপনার কাজ কখনো GPU সীমানা অতিক্রম না করে, তাহলে ঘনিষ্ঠভাবে সংযুক্ত নোড বা InfiniBand ক্লাস্টারের জন্য অতিরিক্ত খরচ দেওয়া কোনো সুবিধা দেয় না।
ভাড়া নেওয়ার আগে কী পরীক্ষা করবেন
এই দুই ইন্টারকানেক্ট প্রায়ই মার্কেটিং কপিতে মিশ্রিত হয়, তাই উপরের তুলনার সাথে সুনির্দিষ্ট বিষয়গুলো যাচাই করুন:
- পরিধি — নিশ্চিত করুন তালিকাটি NVLink (নোডের ভিতরে GPU সংযোগ) নাকি InfiniBand (নোডের মধ্যে নেটওয়ার্কিং) বোঝাচ্ছে। একক-নোড ইনস্ট্যান্সে NVLink থাকতে পারে কিন্তু একটিও InfiniBand নাও থাকতে পারে।
- টপোলজি এবং প্রস্থ — কতগুলি GPU NVLink ডোমেইন শেয়ার করে (পূর্ণ NVSwitch অল-টু-অল বনাম আংশিক ব্রিজ), এবং InfiniBand লিঙ্ক রেট এবং RDMA/GPUDirect সক্রিয় কিনা।
- জেনারেশন — নতুন GPU জেনারেশনগুলো উচ্চ ব্যান্ডউইথ NVLink বহন করে; শুধুমাত্র “NVLink” লেবেল আপনাকে গতি বলে না।
- মাল্টি-নোড উপলব্ধতা — আপনি কি আসলেই একাধিক সংযুক্ত নোড রিজার্ভ করতে পারবেন, এবং তারা একই ফ্যাব্রিকে থাকবে কিনা, ডেটা সেন্টারে ছড়িয়ে ছিটিয়ে নয়।
- সফটওয়্যার সাপোর্ট — NCCL, MPI, এবং আপনার ফ্রেমওয়ার্ক ফ্যাব্রিকটি দেখে এবং ব্যবহার করে; ভুল কনফিগারেশন ধীরে চলা পথগুলিতে নীরবে ফিরে যায়।
মূল্য এবং উপলব্ধতার দিক থেকে, ইন্টারকানেক্ট-সমৃদ্ধ ইনস্ট্যান্সগুলি সাধারণত উচ্চ দামের দিকে থাকে। NVLink-সজ্জিত মাল্টি-GPU নোড এবং InfiniBand-সংযুক্ত ক্লাস্টারগুলি প্রিমিয়াম হার্ডওয়্যার ব্যবহার করে এবং স্থায়ী চাহিদায় থাকে, তাই অন-ডিমান্ড ক্যাপাসিটি সীমিত এবং স্পট বা ইন্টারাপ্টেবল অপশন একক কমোডিটি GPU এর তুলনায় কম। বিশেষ করে মাল্টি-নোড InfiniBand বরাদ্দ প্রায়শই গেটেড, রিজার্ভড, বা বড় ব্লকে বিক্রি হয়। উপরের টেবিলের দামগুলোকে লাইভ রেফারেন্স হিসেবে বিবেচনা করুন, কারণ রেট পরিবর্তিত হয় এবং প্রদানকারীর উপর নির্ভর করে ভিন্ন হতে পারে।
প্রায়শই জিজ্ঞাসিত প্রশ্ন
আমার কি NVLink এবং InfiniBand উভয়ই প্রয়োজন?
এটি স্কেলের উপর নির্ভর করে। একক-নোড মাল্টি-GPU কাজের জন্য শুধু NVLink প্রয়োজন। আপনার ট্রেনিং যখন একাধিক সার্ভার জুড়ে বিস্তৃত হয়, তখন আপনি সেই নোডগুলো সংযুক্ত করার জন্য InfiniBand ও চান — দুইটি ভিন্ন স্তরে কাজ করে, তাই একটি বড় ক্লাস্টার সাধারণত প্রতিটি বাক্সের ভিতরে NVLink এবং বাক্সগুলোর মধ্যে InfiniBand এর ওপর নির্ভর করে।
আমার একক-GPU ওয়ার্কলোড কি NVLink বা InfiniBand ইনস্ট্যান্সে দ্রুত চলবে?
না। এই দুই ইন্টারকানেক্ট তখনই গুরুত্বপূর্ণ যখন ডেটা GPUs এর মধ্যে বা নোডগুলোর মধ্যে চলে। এক GPU তে ফিট করা ওয়ার্কলোড কখনোই এই ফ্যাব্রিক স্পর্শ করে না, তাই আপনি ব্যবহার করতে না পারার জন্য অতিরিক্ত খরচ দেবেন। এক GPU এর বেশি স্কেল করার সময়ই এগুলো ফিল্টার করুন।
বড় ট্রেনিং কাজের জন্য কেন ইন্টারকানেক্ট GPU স্পেসিফিকেশনের চেয়ে বেশি গুরুত্বপূর্ণ?
বিতরণকৃত ট্রেনিং প্রতিটি ধাপের বড় অংশ গ্রেডিয়েন্ট এবং অ্যাক্টিভেশন বিনিময়ে ব্যয় করে। যদি ফ্যাব্রিক তাল মিলিয়ে না চলে, GPUs অপেক্ষার সময় নিষ্ক্রিয় থাকে, এবং GPU বাড়ালে লাভ কমে যায়। দ্রুত ইন্টারকানেক্টই অ্যাক্সেলেটর যোগ করার সাথে প্রায়-রৈখিক স্কেলিং বজায় রাখে।
প্রতিটি মাল্টি-GPU ইনস্ট্যান্সে NVLink পাওয়া যায়?
না। কিছু মাল্টি-GPU নোড তাদের কার্ডগুলো শুধুমাত্র PCIe এর মাধ্যমে সংযুক্ত করে, যার GPU-থেকে-GPU ব্যান্ডউইথ অনেক কম। একাধিক GPU থাকার মানে NVLink থাকা নয়, তাই উপরের তুলনায় ইন্টারকানেক্ট স্পষ্টভাবে নিশ্চিত করুন GPU সংখ্যার ওপর নির্ভর না করে।