أربعة تأثيرات رئيسية للذكاء الاصطناعي على تخزين البيانات
يعد الذكاء الاصطناعي (AI) واحدًا من أسرع تقنيات المؤسسات نموًا.
وفقا لشركة آي بي إم، 42% من الشركات التي تضم أكثر من 1000 موظف تستخدم الآن الذكاء الاصطناعي في أعمالها. وهناك 40% آخرين يقومون باختبارها أو تجربتها.
الكثير من هذا الابتكار مدفوع بالذكاء الاصطناعي التوليدي (GenAI)، أو نماذج اللغات الكبيرة (LLM)، مثل ChatGPT. يتم استخدام هذه الأشكال من الذكاء الاصطناعي بشكل متزايد في تطبيقات المؤسسات أو عبر روبوتات الدردشة التي تتفاعل مع العملاء.
تعتمد معظم أنظمة GenAI، في الوقت الحالي، على السحابة، ولكن ويعمل الموردون على تسهيل الأمر لدمج LLMs مع بيانات المؤسسة.
هناك حاجة إلى ماجستير إدارة الأعمال والمزيد من الأشكال “التقليدية” للذكاء الاصطناعي والتعلم الآلي موارد كبيرة للحوسبة وتخزين البياناتسواء داخل الشركة أو في السحابة.
هنا، ننظر إلى بعض نقاط الضغط حول تخزين البياناتبالإضافة إلى الحاجة إلى الامتثال خلال مرحلتي التدريب والتشغيل للذكاء الاصطناعي.
يضع تدريب الذكاء الاصطناعي متطلبات كبيرة على عمليات الإدخال/الإخراج للتخزين
تحتاج نماذج الذكاء الاصطناعي إلى التدريب قبل الاستخدام. كلما كان التدريب أفضل، كلما كان النموذج أكثر موثوقية – وعندما يتعلق الأمر بالتدريب النموذجي، كلما زادت البيانات كلما كان ذلك أفضل.
يقول روي إلسلي، كبير المحللين في ممارسات السحابة ومراكز البيانات في Omdia: “إن الجانب الحاسم في أي نموذج هو مدى جودته”. “هذا تعديل لمقولة “البيانات الضعيفة بالإضافة إلى النموذج المثالي يساوي التنبؤ السيئ”، والذي يقول كل شيء. يجب أن تكون البيانات نظيفة وموثوقة ويمكن الوصول إليها.”
ونتيجة لذلك، فإن مرحلة التدريب هي المرحلة التي تضع فيها مشاريع الذكاء الاصطناعي الطلب الأكبر على البنية التحتية لتكنولوجيا المعلومات، بما في ذلك التخزين.
ولكن لا توجد بنية تخزين واحدة تدعم الذكاء الاصطناعي. يعتمد نوع التخزين على نوع البيانات.
بالنسبة لنماذج اللغات الكبيرة، يتم إجراء معظم التدريب باستخدام بيانات غير منظمة. سيكون هذا عادة في الملف أو تخزين الكائن.
وفي الوقت نفسه، تستخدم النماذج المالية البيانات المنظمة، حيث يكون تخزين الكتل أكثر شيوعًا، وستكون هناك مشاريع الذكاء الاصطناعي التي تستخدم أنواع التخزين الثلاثة جميعها.
هناك عامل آخر وهو المكان الذي يتم فيه التدريب النموذجي. من الناحية المثالية، يجب أن تكون البيانات قريبة من موارد الحوسبة قدر الإمكان.
بالنسبة للنموذج المستند إلى السحابة، فإن هذا يجعل التخزين السحابي هو الخيار النموذجي. تعد الاختناقات في الإدخال/الإخراج (I/O) في البنية التحتية السحابية مشكلة أقل من مشكلة زمن الوصول التي عانى منها نقل البيانات من وإلى السحابة، ويقدم موفرو السحابة واسعة النطاق الآن مجموعة من خيارات التخزين عالية الأداء.
والعكس ينطبق أيضاً. إذا كانت البيانات محلية، كما هو الحال في قاعدة بيانات الشركة أو نظام تخطيط موارد المؤسسة، فقد يكون من المنطقي استخدام الحوسبة المحلية لتشغيل النموذج. يتيح ذلك لمطوري الذكاء الاصطناعي مزيدًا من التحكم في تكوين الأجهزة.
تصنع نماذج الذكاء الاصطناعي الاستخدام المكثف لوحدات معالجة الرسومات (وحدات معالجة الرسومات)، وهي باهظة الثمن، لذا فإن جعل التخزين يواكب متطلبات وحدة معالجة الرسومات هو أمر أساسي. ومع ذلك، في بعض الحالات، من المرجح أن تكون وحدات المعالجة المركزية عنق الزجاجة من التخزين. يتعلق الأمر بنوع النموذج والبيانات التي يتم التدريب عليها والبنية التحتية المتاحة.
يقول باتريك سميث، المدير الفني الميداني لمنطقة أوروبا والشرق الأوسط وأفريقيا في شركة Pure Storage: “يجب أن تكون فعالة قدر الإمكان”. “هذا هو بيت القصيد. أنت بحاجة إلى بيئة متوازنة من حيث قدرة وأداء وحدات معالجة الرسومات والشبكة والتخزين الخلفي.
ستؤثر الطريقة التي تخطط بها الشركة لاستخدام نموذج الذكاء الاصطناعي الخاص بها أيضًا على اختيارها للتخزين المحلي أو السحابي. عندما تكون مرحلة التدريب على الذكاء الاصطناعي قصيرة الأجل، فمن المرجح أن يكون التخزين السحابي هو الأكثر فعالية من حيث التكلفة، وتكون قيود الأداء أقل حدة. يمكن للشركة تدوير وحدة التخزين بمجرد اكتمال التدريب.
ومع ذلك، إذا كانت هناك حاجة للاحتفاظ بالبيانات أثناء المرحلة التشغيلية – للضبط الدقيق أو التدريب المستمر، أو للتعامل مع البيانات الجديدة – فإن مزايا السحابة عند الطلب تضعف.
يحتاج استنتاج الذكاء الاصطناعي إلى زمن وصول منخفض
بمجرد تدريب النموذج، يجب أن تقل متطلباته على تخزين البيانات. يقوم نظام الذكاء الاصطناعي للإنتاج بتشغيل استعلامات المستخدم أو العميل من خلال خوارزميات مضبوطة، ويمكن أن تكون فعالة للغاية.
يقول كريستوف شترمان، مدير الهندسة السحابية في Taiga Cloud، وهي جزء من Northern Data: “إن النموذج الناتج عن تدريب الذكاء الاصطناعي صغير بشكل عام مقارنة بحجم الموارد الحاسوبية المستخدمة لتدريبه، ولا يتطلب الكثير من مساحة التخزين”. مجموعة.
ومع ذلك، لا يزال النظام يحتوي على مدخلات ومخرجات البيانات. يقوم المستخدمون أو التطبيقات بإدخال استعلامات إلى النموذج ثم يقدم النموذج مخرجاته بالمثل.
في هذه المرحلة التشغيلية أو مرحلة الاستدلال، يحتاج الذكاء الاصطناعي إلى عمليات إدخال/إخراج عالية الأداء ليكون فعالاً. يمكن أن يكون حجم البيانات المطلوبة أصغر من حجم البيانات المطلوبة للتدريب، ولكن يمكن قياس الجداول الزمنية لإدخال البيانات وإرجاع الاستعلامات بالمللي ثانية.
تحتاج بعض حالات استخدام الذكاء الاصطناعي الرئيسية، مثل الأمن السيبراني واكتشاف التهديدات، وأتمتة عمليات تكنولوجيا المعلومات، والمسح البيومتري للأمان أو التعرف على الصور في التصنيع، إلى نتائج سريعة.
حتى في المجالات التي يتم فيها استخدام GenAI لإنشاء روبوتات محادثة تتفاعل مثل البشر، يجب أن يكون النظام سريعًا بما يكفي حتى تبدو الاستجابات طبيعية.
مرة أخرى، يعود الأمر إلى النظر إلى النموذج وما يتطلع نظام الذكاء الاصطناعي إلى القيام به. يقول إيلسلي: “ستتطلب بعض التطبيقات زمن وصول منخفضًا للغاية”. “على هذا النحو، يجب أن يكون الذكاء الاصطناعي موجودًا بالقرب من المستخدم قدر الإمكان ويمكن أن تكون البيانات جزءًا صغيرًا جدًا من التطبيق. قد تكون التطبيقات الأخرى أقل حساسية لزمن الاستجابة ولكنها تتضمن كميات كبيرة من البيانات، وبالتالي تحتاج إلى وجود الذكاء الاصطناعي بالقرب من وحدة التخزين، مع السعة والأداء المطلوبين.
إدارة البيانات للذكاء الاصطناعي
التأثير الثالث للذكاء الاصطناعي على التخزين هو الحاجة المستمرة لذلك جمع ومعالجة البيانات.
بالنسبة للذكاء الاصطناعي “التقليدي” والتعلم الآلي، يريد علماء البيانات الوصول إلى أكبر قدر ممكن من البيانات، على أساس أن المزيد من البيانات تساعد في إنشاء نموذج أكثر دقة.
ويرتبط هذا بالنهج الأوسع للمنظمة فيما يتعلق بإدارة البيانات والتخزين. تشمل الاعتبارات هنا ما إذا كانت البيانات مخزنة على قرص فلاش أو قرص دوار، ومكان حفظ الأرشيفات وسياسات الاحتفاظ بالبيانات التاريخية.
سوف يقوم التدريب على الذكاء الاصطناعي ومرحلة الاستدلال باستخلاص البيانات من جميع أنحاء المؤسسة، وربما من تطبيقات متعددة ومدخلات بشرية وأجهزة استشعار.
بدأ مطورو الذكاء الاصطناعي في النظر إلى أنسجة البيانات باعتبارها إحدى طرق “تغذية” أنظمة الذكاء الاصطناعي، لكن الأداء يمكن أن يمثل مشكلة. من المحتمل أن تكون هناك حاجة إلى بناء أنسجة البيانات عبر مستويات تخزين مختلفة لتحقيق التوازن بين الأداء والتكلفة.
في الوقت الحالي، لا يمثل GenAI تحديًا أقل، حيث يتم تدريب حاملي شهادات الماجستير على بيانات الإنترنت، ولكن هذا سيتغير مع تطلع المزيد من الشركات إلى استخدام حاملي شهادات الماجستير باستخدام بياناتهم الخاصة.
الذكاء الاصطناعي وتخزين البيانات والامتثال
تحتاج الشركات إلى التأكد من أن بيانات الذكاء الاصطناعي الخاصة بها آمنة ويتم الاحتفاظ بها وفقًا للقوانين واللوائح المحلية.
وسيؤثر هذا على مكان حفظ البيانات، حيث يصبح المنظمون أكثر اهتماما بسيادة البيانات. في خدمات الذكاء الاصطناعي المستندة إلى السحابة، يؤدي ذلك إلى الحاجة إلى فهم مكان تخزين البيانات أثناء مرحلتي التدريب والاستدلال. تحتاج المنظمات أيضًا إلى التحكم في كيفية تخزين مدخلات ومخرجات النموذج.
وينطبق هذا أيضًا على النماذج التي تعمل على الأنظمة المحلية، على الرغم من وجودها حماية البيانات والامتثال يجب أن تغطي السياسات معظم حالات استخدام الذكاء الاصطناعي.
ومع ذلك، فمن المفيد أن نكون حذرين. يقول ريتشارد واتسون برون، خبير أمن البيانات في PA Consulting: “من أفضل الممارسات تصميم البيانات التي يتم إدخالها في مجموعة التدريب لتعلم الذكاء الاصطناعي، وتحديد البيانات التي تريدها والتي لا تريد الاحتفاظ بها في النموذج بوضوح”. .
“عندما تستخدم الشركات أداة مثل ChatGPT، قد يكون من الجيد تمامًا الاحتفاظ بهذه البيانات في السحابة ونقلها إلى الخارج، ولكن يجب وضع شروط العقد للتحكم في هذه المشاركة.”