البودكاست: يحتاج التخزين للذكاء الاصطناعي إلى التوسع والسحابة المختلطة وعمليات التكامل المتعددة

جالب الأخبار28 يونيو,2024

21 5 دقائق

في هذه الحلقة، نلقي نظرة على الذكاء الاصطناعي وتخزين البيانات مع جرانت كالي، مدير الحلول في المملكة المتحدة وأيرلندا لشركة NetApp.

ويتحدث عن الحاجة إلى قابلية التوسع في التخزين والأداء، فضلاً عن السحابة الهجينة، والوصول إلى جميع أجهزة التوسعة الثلاثة، والقدرة على نقل البيانات ونسخها واستنساخها للتعامل معها قبل تشغيل الاستدلال.

يتحدث كالي أيضًا عن أهمية تكامل واجهة برمجة التطبيقات (API)، وهي طبقة بيانات موحدة يمكنها الاتصال بـ Kubernetes، والتكامل مع Python، ومنصات سير العمل مثل Kafka، وNvidia microservices وأطر العمل مثل NIM وNEMO.

أنتوني أدشيد: من وجهة نظر التخزين، ما هو المختلف في أعباء عمل الذكاء الاصطناعي؟

غرانت كالي: إن أحمال العمل التقليدية في المؤسسات محددة بشكل جيد إلى حد ما فيما يتعلق بخصائص هذا الحمل، ومتطلبات هذا الحمل.

مع الذكاء الاصطناعي، الأمر مختلف تمامًا. يبدأ الذكاء الاصطناعي صغيرًا جدًا من حيث التطوير، لكنه يمكن أن يتوسع بسرعة إلى منشآت إنتاج متعددة البيتابايت والتي لا تمتد فقط داخل المؤسسة ولكن أيضًا إلى السحابة.

عندما تنظر إليه من منظور عبء عمل الذكاء الاصطناعي، فهو يختلف تمامًا تقريبًا عن نوع من تطبيقات المؤسسات المنعزلة والمركّزة. وهذا يعني أنه يتعين عليك التعامل مع متطلبات الأداء المختلفة. تتراوح القدرات التي يتعين عليك استضافتها للذكاء الاصطناعي من منظور البيانات من مجرد غيغابايت إلى بيتابايت من البيانات، الأمر الذي له تحدياته الخاصة.

من منظور عبء عمل الذكاء الاصطناعي، غالبًا ما يتعين عليك التعامل مع مجموعات البيانات الكبيرة، ونقلها، واستنساخها، ونسخها، وإعدادها للتنظيف والإدخال، ثم استخدامها للاستدلال.

هناك الكثير من الصيانة العالية التي تدور حول نوع المتطلبات التي تتوافق مع الذكاء الاصطناعي أيضًا. وحقيقة أخرى مثيرة للاهتمام هي أننا نرى الآن أن الذكاء الاصطناعي ليس مجرد لعبة داخل مقر الشركة. إنها AWS [Amazon Web Services]وAzure وGoogle Play أيضًا.

يعمل العملاء على تطوير والاستفادة من كل هذه البيئات بالإضافة إلى مراكز البيانات الخاصة بهم لتقديم الذكاء الاصطناعي. ومن ما رأيناه مؤخرًا، أصبح الذكاء الاصطناعي بمثابة الملكية الفكرية للشركة، والبيانات التي يستفيد منها والناتج الذي ينتجه. يعد أمان هذه البيانات أمرًا بالغ الأهمية، حيث يمكن إثبات البيانات وفحصها وإصدارها، نظرًا لبعض القوانين التي يتم سنها حول الذكاء الاصطناعي.

كل هذا يُحدث فرقًا كبيرًا في كيفية تعاملنا معه. وفي النهاية، إذا نظرت إلى الذكاء الاصطناعي بشكل عام مقارنة بأي عبء عمل في المؤسسة، فإن سير العمل الفعلي معقد حقًا وعليك أن تأخذ ذلك في الاعتبار في كيفية تقديم الذكاء الاصطناعي. لذلك، هناك الكثير مما يحدث حول أعباء العمل المختلفة في سياق الذكاء الاصطناعي.

ما الذي تحتاجه وحدة التخزين للتعامل مع أعباء عمل الذكاء الاصطناعي؟

كالي: إنه نوع من البناء على الإجابة الأخيرة التي قدمتها. عندما يبدأ العملاء في تطوير الذكاء الاصطناعي، غالبًا ما يبدأون في السحابة لأن مجموعات الأدوات موجودة – المنصات – ولا يتعين عليهم إنفاق الكثير من المال لبناء البيئات. لذا، يجب أن تكون قادرًا على الاستفادة من السحابة.

ولكن بالمثل، يقوم الكثير من العملاء بذلك داخل الشركة. إنهم يبنون وحدة معالجة رسومات صغيرة [graphics processing unit] الأنظمة الأساسية في الخوادم، فإنها تتطور إلى DGX أو Nvidia SuperPods أكبر وتلك الأنواع من التكوينات.

إن ما يشكل أهمية كبيرة من منظور التخزين هو البيانات التي تقود النتائج التي يحاولون تحقيقها. سواء كانت مراحل التطوير المبكرة في السحابة أو الانتقال إلى مرحلة الإنتاج الأولى في الموقع، أو كيفية دفع البيانات للاستدلال عليها حيث تكون هناك حاجة إليها بالفعل.

يمكن أن يكون ذلك مصانع صغيرة، أو مواقع نائية، أو أيًا كان ما يحدث. لذا، فإن نقل البيانات من طبقة التخزين هو في الواقع أمر أساسي، وهذا يعني أنه لا يتعين عليك إنشاء صوامع تخزين لكل حالة من حالات الاستخدام هذه.

يتعين عليك حقًا محاولة التوفيق بين حالات الاستخدام هذه وتقديم شيء يوفر إمكانية نقل البيانات. اعتدنا أن نتحدث عن تقديم بنية بيانات، لكن هذا النوع من الترابط هو المهم حقًا.

أعتقد أن الشيء الآخر بالنسبة للذكاء الاصطناعي هو أنه يبدأ بأداء منخفض عندما تقوم بالمراحل الأولى من التدريب، ولكن يمكن أن يتوسع ذلك بسرعة.

لذلك، الأداء هو عامل كبير. عليك أن تعرف أن التخزين يمكن أن يفي بالمتطلبات الصغيرة وحتى متطلبات الإنتاج ومتطلبات الحجم. وتنسى الكثير من الشركات ذلك عندما تذهب إلى الإنتاج. لقد قاموا بإنشاء هذه الصوامع لأنواع مختلفة من التخزين، دون أن يدركوا أنه في نهاية المطاف سيتعين عليهم في مرحلة ما توسيع نطاقها بشكل كبير.

والحجم عامل آخر لابد أن توفره أنظمة التخزين. وكما قلت، قد يكون حجمها بالجيجابايت في الأيام الأولى، ولكن سرعان ما يتحول هذا الحجم إلى بيتابايت، وخاصة مع قيام الشركات بتجميع مجموعات البيانات لمحاولة تعظيم قيمة التدريب والنتائج التي يمكن أن تقدمها.

ولكن، بطبيعة الحال، البيانات هي الملكية الفكرية للشركة.

يتعين عليك وضع ذلك في بنية تحتية للتخزين توفر إدارة خالية من الثقة. [So] الذي – التي [it] يوفر التشفير الآمن للبيانات، الذي يمكنه إجراؤه – إذا كنت تقوم بإصدار الإصدارات ونوعًا ما يعتمد على الأدلة [work] – تلك النتائج غير قابلة للتغيير أو المحو بحيث يمكنك إثبات البيانات كما كانت والمراحل التي مرت بها.

هناك الكثير من الأشياء التي يتعين عليك القيام بها. وأعتقد أن الأمر الأخير فيما يتعلق بما يتعين على تخزين البيانات تقديمه هو ضرورة أن تكون قادرًا على توفير التكامل مع جميع الأدوات التي يتطلع العميل إلى استخدامها.

إنهم يتطلعون إلى أحمال عمل Kubernetes، وتقديمها من خلال Kubernetes. إنهم يتطلعون إلى استخدام أطر عمل مختلفة في الموقع في السحابة. إذا كانت طبقة التخزين الخاصة بك ستقدم قيمة حقيقية، فيجب أن تكون قادرة على دمج واجهة برمجة التطبيقات في كل هذه البيئات المختلفة لتعظيم الإمكانات التي يمكن تقديمها من طبقة التخزين نفسها.