Cern: تحديات إدارة مراكز بيانات GPU
في وقت سابق من شهر مارس، حصلت منظمة Cern، وهي المنظمة الأوروبية للأبحاث النووية، على جائزة أفضل مستخدم نهائي من مؤسسة الحوسبة السحابية الأصلية (CNCF) خلال المؤتمر. KubeCon وCloudNativeCon حدث في باريس.
لقد كان Cern أحد المستخدمين الرئيسيين لـ Kubernetes، وهو يبحث في كيفية القيام بذلك وحدات معالجة الرسوميات يمكن إدارة (وحدات معالجة الرسومات) بشكل فعال في البيئات المحلية.
أصبحت وحدات معالجة الرسومات هي المعيار الفعلي لتشغيل أعباء عمل الذكاء الاصطناعي (AI). استخدمت CNCF مؤتمر باريس لإطلاق مجموعة عمل Cloud Native AI. من بين التطورات التي حدثت في الحوسبة السحابية الأصلية هو أن برنامج جدولة Kubernetes قد تطور لدمج ودعم مشاركة وحدات معالجة الرسومات.
تعني الأجهزة السلعية وتحسينات الأداء المتزايدة باستمرار التي تقدمها وحدات معالجة الرسومات أن الأشخاص الذين يعملون في مختبر مسرع الجسيمات Cern يفكرون في جدوى استخدام الأجهزة السلعية المدعومة بوحدات معالجة الرسومات لتشغيل التعلم الآلي. هذه قادرة على استبدال الأجهزة المخصصة المستخدمة في أجهزة الكشف عن المسرع.
قال ريكاردو روشا، مهندس الحوسبة في Cern، مخاطبًا المندوبين في هذا الحدث: “لا أعرف عدد الأشخاص الذين يقومون بتشغيل البنية التحتية المحلية أو يعتمدون فقط على موفري الخدمات السحابية الخارجيين، ولكن التحدي الأول الذي نواجهه هو أن نمط استخدام الأجهزة يختلف كثيرًا عن وحدة المعالجة المركزية التقليدية [central processing unit] أعباء العمل.”
في تجربته، متطلبات الطاقة والتبريد لمركز البيانات تزيد بشكل كبير عند استخدام وحدات معالجة الرسومات. في الواقع، الأشخاص الذين يطلبون البنية التحتية لتكنولوجيا المعلومات لتشغيل أعباء العمل الجديدة هذه في Cern يستخدمون أيضًا موارد الحوسبة التي كانت مرتبطة تقليديًا بالحوسبة عالية الأداء، مثل الحاجة إلى اتصالات سريعة بين الشبكات مثل Infiniband لتوصيل مجموعات من وحدات معالجة الرسومات.
وقال روشا إن فرصة استخدام وحدات معالجة الرسومات تأتي في الوقت الذي تعمل فيه Cern على إطالة عمر الأجهزة من خمس إلى ثماني سنوات. وقال: “يريد الناس الحصول على وحدات معالجة رسوميات جديدة فاخرة، ولكن من جانبنا، فهي باهظة الثمن للغاية”. “نريد أن نجعلها تدوم لفترة أطول، في حين يرغب الناس في الحصول على تحول أسرع بكثير لأن هذا هو ما يقدمه لهم مقدمو الخدمات السحابية العامة.” وهذا يعني أن فريق تكنولوجيا المعلومات في Cern مكلف بتقديم أفضل البنية التحتية الداخلية مع القدرة على دعم حالات الاستخدام الأكثر تقدمًا.
خلال العرض الذي قدمه، ناقش روشا الحاجة إلى توفير منصة لإضفاء الطابع الديمقراطي على الذكاء الاصطناعي وتزويد الباحثين بالقدرة على الوصول إلى موارد GPU المتوفرة لدى Cern.
وناقش أهمية فهم الأنواع المختلفة لأعباء عمل وحدة معالجة الرسومات وأنماط الاستخدام. بعضها تفاعلي ويتطلب عادةً طاقة حسابية أقل واستخدامًا لوحدة معالجة الرسومات، بينما البعض الآخر أكثر قابلية للتنبؤ به وتشغيله في الوضع الدفعي. وقالت روشا أيضًا إن إدارة أعباء العمل التي يمكن التنبؤ بها تستعير أفضل ممارسات الحوسبة عالية الأداء، مثل الانتظار والجدولة لتحقيق أفضل استفادة من موارد تكنولوجيا المعلومات المتاحة.
“عند إضافة وحدات معالجة الرسومات [into the datacentre]وقال: “الدرس الرئيسي هو الحفاظ على المرونة قدر الإمكان فيما يتعلق بالبنية التحتية التي يمكنك دعمها”.
وهذا يعني بناء القدرة على تشغيل مجموعات متعددة وأعباء العمل المختلطة. قال روشا: “إذا تمكنت من الحصول على وحدات معالجة الرسومات، فاستكملها من خلال الاستفادة من الموارد الخارجية”. “هذا مهم حقًا وهو قرار تصميمي يجب اتخاذه في البداية.”