أخبار التقنية

Gartner: اعتبارات عند استخدام وحدات معالجة الرسومات في مركز البيانات


تتوقع CIOS قيمة واسعة من استثمارات الذكاء الاصطناعي (AI) ، بما في ذلك زيادة الإنتاجية ، وتجربة العملاء المعززة (CX) والتحول الرقمي. ونتيجة لذلك ، نمت مصلحة عميل Gartner في نشر البنية التحتية لمنظمة العفو الدولية – بما في ذلك وحدات معالجة الرسومات (GPU) وخوادم الذكاء الاصطناعي – بشكل كبير.

على وجه التحديد ، استفسارات العميل بخصوص GPUS و AI البنية التحتية زادت ما يقرب من أربعة أضعاف سنويًا من أكتوبر 2022 إلى أكتوبر 2024. يستكشف العملاء استخدام الخيارات المستضافة والسحابة والمستندة إلى GPU. في بعض الحالات ، ستقوم المؤسسات باختيار عرض AI “الكامل” الذي يتضمن GPU وحساب وتخزين وشبكات في حزمة مجمعة. في حالات أخرى ، ستقوم المؤسسات باختيار ونشر القطع ، والتي تم اختيارها وتكاملها بشكل فردي. تختلف متطلبات أعباء العمل من الذكاء الاصطناعي عن معظم أعباء العمل الموجودة في مجال البيانات.

تتوفر تقنيات الاتصال المتعددة لدعم اتصال GPU. سؤال شائع من عملاء Gartner هو: “هل يجب أن أستخدم Ethernet ، infiniband أو nvlink للاتصال بمجموعات GPU؟ ” يمكن أن تكون المقاربات الثلاثة صالحة ، اعتمادًا على السيناريو.

هذه التقنيات ليست حصرية بشكل متبادل. يمكن للمؤسسات نشرها بالتزامن مع بعضها البعض (على سبيل المثال ، في niband أو إيثرنت) لتوسيع نطاق خارج الرف. الاعتقاد الخاطئ الشائع هو أنه فقط في niband أو تقنية التوصيل البيني الموردين (مثل NVLink) يمكن أن تقدم الأداء والموثوقية المناسبة.

ومع ذلك ، يوصي Gartner بأن تنشر المؤسسات Ethernet على تقنيات بديلة ، كما هو الحال في Niband ، لمجموعات GPU حتى عدة آلاف. يمكن أن توفر البنية التحتية المستندة إلى Ethernet الموثوقية والأداء اللازمة ، وهناك خبرة في المؤسسة واسعة النطاق مع التكنولوجيا. علاوة على ذلك ، يرتبط نظام بيئي واسع من الموردين بتكنولوجيا الإيثرنت.

تحسين عمليات نشر الشبكة لحركة مرور GPU

الحالة الحالية للممارسة لوحدة معالجة الكمبيوتر (CPU) التي تعتمد على أعباء عمل الحوسبة للأغراض العامة هي طوبولوجيا شبكة الأوراق/العمود الفقري.

لكن، طبولوجيا الأوراق ليست دائمًا مثالية لأعباء العمل من الذكاء الاصطناعي. بالإضافة إلى ذلك ، يمكن أن يؤدي تشغيل أعباء العمل من الذكاء الاصطناع إلى شبكات المركز الحالي إلى إنشاء تأثيرات جوار صاخبة تعمل على تدهور الأداء لكل من الذكاء الاصطناعي وأعباء العمل الحالية. هذا يمكن أن يؤخر وقت المعالجة وإكمال العمل لأعباء عمل الذكاء الاصطناعى ، وهو أمر غير فعال للغاية.

في بناء البنية التحتية لمنظمة العفو الدولية ، تمثل مفاتيح الشبكات عادة 15 ٪ أو أقل من التكلفة. ونتيجة لذلك ، فإن توفير الأموال باستخدام المحولات الحالية يؤدي إلى السعر/الأداء الإجمالي دون المستوى الأمثل لاستثمار عبء العمل AI. نتيجة لذلك ، يقدم Gartner عدة توصيات.

نظرًا لمتطلبات حركة المرور الفريدة وتكاليف GPU ، يقترح Gartner إنشاء مفاتيح مادية مخصصة لاتصال GPU. علاوة على ذلك ، بدلاً من التخلف عن سعة طوبولوجيا أوراق الورق ، يقترح Gartner أيضًا استخدام الحد الأدنى من المفاتيح المادية لتقليل “القفزات” المادية. يمكن أن يؤدي ذلك في النهاية إلى طوبولوجيا الأوراق ، بالإضافة إلى طوبولوجيا أخرى ، بما في ذلك التبديل الواحد ، والتبديل ، والمشاركة الكاملة ، والمكعب ، واليعسوب.

تجنب استخدام نفس المفاتيح لاحتياجات الحوسبة المركزية الأخرى. بالنسبة لمجموعات GPU التي تقل عن 500 وحدات معالجة الرسومات ، يعد مفتاحًا ماديًا أو اثنين مثاليًا. بالنسبة للمنظمات التي تضم أكثر من 500 وحدات معالجة الرسومات ، تنصح Gartner من صانعي القرار ببناء نسيج مخصص من الذكاء الاصطناعي. من المحتمل أن يتطلب ذلك انحرافًا عن طوبولوجية المعيار ، ودولة الممارسات ، وأعلى توجيهات نحو تطبيقات التبديل المتوسط ​​و/أو المعيار.

تعزيز بناء Ethernet

يوصي Gartner باستخدام مفاتيح مخصصة لاتصال GPU. عند نشر Ethernet (مقارنة مع Infiniband أو الرف/الرف/الصف الأمثل) ، استخدم المفاتيح مع متطلبات محددة. تحتاج المفاتيح إلى دعم:

  • واجهة عالية السرعة ل GPU ، بما في ذلك منافذ الوصول 400GBPS وما فوق.
  • دعم Ethernet بدون خسارة ، بما في ذلك آليات معالجة الازدحام المتقدمة-على سبيل المثال ، إشعار الازدحام الكمي (DCQCN).
  • إمكانيات توازن حركة المرور المتقدمة ، بما في ذلك موازنة تحميل الحمل الازدحام.
  • الوصول المباشر للذاكرة المباشر (RDMA)-على دراية تحميل موازنة ورش الحزمة.

دعم تثبيت التدفقات الثابتة

علاوة على ذلك ، يجب تعزيز البرنامج لإدارة أقمشة شبكة الذكاء الاصطناعى أيضًا. هذا يتطلب وظيفة في طبقة الإدارة لتنبيه المشكلات وتشخيصها ومعالجتها بسرعة. على وجه الخصوص ، يعد برنامج الإدارة الذي يوفر القياس عن بُعد الحبيبي المتقدم (بما في ذلك فترات ثانية وسبعة 100 ميلي ثانية) مثالية لاستكشاف الأخطاء وإصلاحها. بالإضافة إلى ذلك ، فإن القدرة على مراقبة وتنبيه (في الوقت الفعلي) وتوفير التقارير التاريخية لاستخدام النطاق الترددي ، وفقدان الحزم ، والارتعاش ، والكمون والتوافر على مستوى ثانية ثانية.

دعم Ethernet Ultra (و Scheelerator)

عند بناء الأقمشة ، ينصح Gartner قادة تكنولوجيا المعلومات بالنظر في مقدمي الخدمات الذين يتعهدون بدعم اتحاد Ethernet Ultra (UEC) ومواصفات Link (UAL) UNC (UEC).

تقوم UEC بتطوير معيار الصناعة لدعم أعباء العمل عالية الأداء على Ethernet. اعتبارًا من فبراير 2025 ، لا يوجد معيار مقترح متاح ، لكن Gartner يتوقع اقتراحًا قبل نهاية عام 2025. تنبع الحاجة إلى معيار من حقيقة أن الموردين يستخدمون آليات الملكية حاليًا لتوفير إيثرنت عالية الأداء ضرورية لاتصال الذكاء الاصطناعي.

على المدى الطويل ، هذا يقلل من قابلية التشغيل البيني للعملاء لأنه يحبسهم في تطبيق مورد واحد. فائدة الموردين الذين يؤكدون معيار UEC ثابت هو القدرة على التبادل.

هناك أيضًا جهد منفصل ، ولكنه ذو صلة ، من أجل رابط التسريع المحسّن على الرف/الرف/الصف يسمى UAL. الهدف من UAL هو توحيد تقنية اتصال مسرع عالية السرعة ، تهدف إلى تلبية احتياجات النطاق الترددي لشبكة التوسع التي تتجاوز ما يمكن لـ Ethernet و Infiniband حاليًا.

تقليل المخاطر مع التطبيقات المعتمدة

أخيرًا ، نظرًا لمتطلبات الأداء الصارمة لأعباء عمل الذكاء الاصطناعي ، يجب تحسين الاتصال بين GPU ومفاتيح الشبكة وخالية من الأخطاء من منظور الأجهزة والبرنامج. يمكن أن يكون هذا الأمر صعبًا بشكل متزايد ، بالنظر إلى الوتيرة السريعة للتغيير المرتبطة بكل من تقنية الشبكات وتكنولوجيا GPU.

للتخفيف من إمكانية تحديات التنفيذ ، يوصي Gartner باتباع أدلة التنفيذ التي تم التحقق منها معتمدة (انظر المربع: فوائد التصريح المشترك لشبكات وحدات معالجة الرسومات) من قبل الموردين الشبكات و GPU. تتمثل قيمة التصميم المعتمد في متابعة المشاركين في أن كلا الموردين يجب أن يقفوا عن طريق النشرات التي يتم ذلك وفقًا لهذه المواصفات ، مما يقلل في نهاية المطاف من احتمال حدوث القضايا وتقليل وقت الإصلاح (MTTR) في حالة وجود مشكلة.


تعتمد هذه المقالة على مقتطف من تقرير Gartner ، ممارسات الشبكات الرئيسية لدعم أعباء عمل الذكاء الاصطناعى في مركز البيانات. أندرو ليرنر هو محلل نائب الرئيس المتميز في غارتنر.



Source link

زر الذهاب إلى الأعلى