Nvidia يعالج وحدة معالجة الرسومات hogging

جعلت NVIDIA أداة جدولة KAI ، وهي أداة جدولة وحدة معالجة الرسومات (GPU) في KUBERNETES ، وهي متوفرة كمصدر مفتوح ضمن ترخيص APACHE 2.0.
جدولة كاي ، والتي هي جزء من NVIDIA RUN: AI Platform، تم تصميمه لإدارة أعباء العمل الذكاء الاصطناعي (AI) على وحدات معالجة وحدات معالجة وحدات المعالجة المركزية (CPU). وفقًا لـ NVIDIA ، فإن KAI قادرة على إدارة متطلبات GPU المتقلب وتقليل أوقات الانتظار للوصول إلى حساب. كما يوفر ضمانات الموارد أو تخصيص GPU.
ال مستودع جيثب بالنسبة إلى Kai Scheduler ، قال إنه يدعم دورة حياة الذكاء الاصطناعى بأكملها ، من الوظائف التفاعلية الصغيرة التي تتطلب الحد الأدنى من الموارد إلى التدريب والاستدلال الكبير ، كل ذلك في نفس المجموعة. قالت Nvidia إنها تضمن تخصيص الموارد الأمثل مع الحفاظ على عدالة الموارد بين التطبيقات المختلفة التي تتطلب الوصول إلى وحدات معالجة الرسومات.
تتيح الأداة للمسؤولين عن مجموعات Kubernetes تخصيص موارد GPU ديناميكيًا لأحمال العمل ، ويمكن أن تعمل جنبًا إلى جنب مع جدولين آخرين مثبتون على مجموعة Kubernetes.
“قد تحتاج إلى وحدة معالجة الرسومات واحدة فقط للعمل التفاعلي (على سبيل المثال ، لاستكشاف البيانات) ثم تتطلب فجأة عدة وحدات معالجة الرسومات التدريب الموزع أو تجارب متعددة“رونين دار ، نائب رئيس أنظمة البرمجيات في NVIDIA ، و Ekin Karabulut ، عالم بيانات NVIDIA ، كتب في منشور مدونة. “يجدوون التقليدية يكافحون مع هذا التباين.”
قالوا إن جدولة KAI يعيد حساب قيم المشاركة العادلة بشكل مستمر ، وضبط الحصص والحدود في الوقت الحقيقي ، ومطابقة متطلبات عبء العمل الحالية تلقائيًا. وفقًا لـ DAR و Karabulut ، يساعد هذا النهج الديناميكي في ضمان تخصيص GPU الفعال دون تدخل يدوي ثابت من المسؤولين.
قالوا أيضًا إنه بالنسبة لمهندسي التعلم الآلي ، يقلل المجدول أوقات الانتظار من خلال الجمع بين ما يسمونه “جدولة العصابات” ، ومشاركة GPU ونظام قائمة انتظار هرمية يمكّن المستخدمين من إرسال مجموعات من الوظائف. يتم إطلاق الوظائف بمجرد توفر الموارد وتوازي مع الأولويات والإنصاف ، كما كتب Dar و Karabulut.
لتحسين تقلب الطلب على موارد GPU و CPU ، قال Dar و Karabulut أن Kai Scheduler يستخدم ما تسميه Nvidia تعبئة bin وتوحيدها. قالوا إن هذا يزيد من استخدام حساب الحساب عن طريق مكافحة تجزئة الموارد ، ويحقق ذلك عن طريق تعبئة المهام الأصغر في وحدات معالجة الرسومات ووحدات المعالجة المركزية المستخدمة جزئيًا.
وقال دار وكارابولوت إنه يعالج أيضًا تجزئة العقدة من خلال إعادة تخصيص المهام عبر العقد. تقوم التقنية الأخرى المستخدمة في KAI Scquetuler بنشر أعباء العمل عبر العقد أو وحدات معالجة الرسومات ووحدات المعالجة المركزية لتقليل تحميل كل عقدة وزيادة توفر الموارد لكل عبء عمل.
في الممارسة الأخرى ، قالت Nvidia إن جدولة KAI تتعامل أيضًا مع مجموعات مشتركة يتم نشرها. وفقا لدار وكارابولوت ، بعض الباحثين تأمين وحدات معالجة الرسومات أكثر من اللازم في وقت مبكر من اليوم لضمان التوفر طوال الوقت. وقالوا إن هذه الممارسة يمكن أن تؤدي إلى موارد غير مستغلة ، حتى عندما لا تزال الفرق الأخرى لديها حصص غير مستخدمة.
وقال نفيديا إن جدولة KAI تتناول هذا من خلال تطبيق ضمانات الموارد. وأضاف دار وكرابولوت: “هذا النهج يمنع تقويم الموارد ويعزز كفاءة الكتلة الإجمالية”.
يوفر Kai Scheduler ما تسميه Nvidia podgrouper المدمج الذي يكتشف تلقائيًا ويتصل بالأدوات والأطر مثل Kubeflow و Ray و Argo ومشغل التدريب ، الذي قال إنه يقلل من تعقيد التكوين ويساعد على تسريع التطوير.