المؤسسات التي تأخذ مشاريع الذكاء الاصطناعى ، وخاصة ل نماذج لغة كبيرة (LLMS) و AI التوليدي (Genai)، تحتاج إلى التقاط كميات كبيرة من البيانات للتدريب على النماذج وكذلك تخزين المخرجات من الأنظمة التي تدعم الذكاء الاصطناعي.
ومع ذلك ، من غير المرجح أن تكون هذه البيانات في نظام أو موقع واحد. سوف يعتمد العملاء على مصادر بيانات متعددة ، بما في ذلك البيانات المنظمة في قواعد البيانات والبيانات غير المنظمة في كثير من الأحيان. ستكون بعض مصادر المعلومات هذه هي التمييز والبعض الآخر في السحابة.
للتعامل مع جوع منظمة العفو الدولية للبيانات، يحتاج مهندسو النظام إلى النظر في التخزين عبر شبكات مساحة التخزين (SAN) ، والتخزين المرفق للشبكة (NAS) ، وربما تخزين الكائنات.
في هذه المقالة ، ننظر إلى إيجابيات وسلبيات حظر وملف وكائن تخزين لمشاريع الذكاء الاصطناعي والتحديات في العثور على المزيج الصحيح للمنظمات.
جبل بيانات منظمة العفو الدولية
نادراً ما يتميز الجيل الحالي من مشاريع الذكاء الاصطناعي ، إن وجدت ، بمصدر واحد للبيانات. بدلاً من ذلك ، تعرض نماذج الذكاء الاصطناعي التوليدي مجموعة واسعة من البيانات ، الكثير منه غير منظم. يتضمن ذلك المستندات والصور والصوت والفيديو والكمبيوتر ، على سبيل المثال لا الحصر.
كل شيء عن الذكاء الاصطناعى التوليدي يدور حول فهم العلاقات. لا يزال لديك بيانات المصدر في بياناتك غير المهيكلة ، إما الملف أو الكائن ، وبياناتك المتجهة التي تجلس على كتلة
باتريك سميث ، تخزين خالص
عندما يتعلق الأمر بتدريب LLMS ، كلما زادت مصادر البيانات كلما كان ذلك أفضل. ولكن ، في الوقت نفسه ، تربط المؤسسات LLMs بمصادر البيانات الخاصة بها ، إما مباشرة أو من خلال الجيل المعزز للاسترجاع (خرقة) أن يحسن دقة وأهمية النتائج. قد تكون هذه البيانات مستندات ولكن يمكن أن تشمل تطبيقات المؤسسات التي تحمل البيانات في قاعدة بيانات علائقية.
يقول باتريك سميث ، كبير موظفي التكنولوجيا في مجال التكنولوجيا في EMEA: “الكثير من الذكاء الاصطناعي مدفوعًا بالبيانات غير المهيكلة ، لذلك تشير التطبيقات إلى الملفات والصور والفيديو والصوت – جميع البيانات غير المهيكلة”. “لكن الناس ينظرون أيضًا إلى مجموعات بيانات الإنتاج الخاصة بهم ويريدون ربطهم بمشاريع الذكاء الاصطناعي التوليدي.”
ويضيف أن هذا يشمل إضافة استخلاص إلى قواعد البيانات، والتي يتم دعمها عادة من قبل موردي قاعدة البيانات العلائقية الرئيسية ، مثل Oracle.
ناس وسان
بالنسبة لمهندسي النظام الذين يدعمون مشاريع الذكاء الاصطناعي ، فإن هذا يثير مسألة المكان الأفضل لتخزين البيانات. سيكون أبسط خيار هو ترك مصادر البيانات كما هي ، لكن هذا ليس ممكنًا دائمًا.
قد يكون ذلك لأن البيانات تحتاج إلى مزيد من المعالجة ، أو يجب عزل تطبيق الذكاء الاصطناعي عن أنظمة الإنتاج ، أو أن أنظمة التخزين الحالية تفتقر إلى الإنتاجية التي يتطلبها تطبيق الذكاء الاصطناعي.
بالإضافة إلى ذلك ، يؤدي التفسير عادة إلى زيادات كبيرة في أحجام البيانات – زيادة 10 مرات ليست غير طبية – وهذا يضع المزيد من الطلب على تخزين الإنتاج.
هذا يعني أن التخزين يجب أن يكون مرنًا ويجب أن يكون قادرًا على التوسع ، وتختلف متطلبات معالجة بيانات مشروع الذكاء الاصطناعي خلال كل مرحلة. يتطلب التدريب كميات كبيرة من البيانات الخام ، والاستدلال – تشغيل النموذج في الإنتاج – قد لا يتطلب الكثير من البيانات ولكنه يحتاج إلى زيادة الإنتاجية والحد الأدنى من الكمون.
تميل المؤسسات إلى الحفاظ على الجزء الأكبر من بياناتها غير المهيكلة في ملف الوصول إلى تخزين NAS. تتمتع NAS بمزايا كونها منخفضة التكلفة نسبيًا وأسهل في الإدارة وتوسيع نطاقها من بدائل مثل التخزين المباشر (DAS) أو تخزين الوصول إلى SAN.
من المرجح أن تكون البيانات المهيكلة تخزينًا. عادةً ما يكون هذا على SAN ، على الرغم من أن التخزين المباشر المرفق قد يكون كافيًا لمشاريع الذكاء الاصطناعى الأصغر.
هنا ، تحقيق أفضل أداء – من حيث IOPS والإنتاجية من صفيف التخزين – يعوض التعقيد الأكبر لـ NAS. ستستخدم أنظمة إنتاج المؤسسات ، مثل تخطيط موارد المؤسسات (ERP) وإدارة علاقات العملاء (CRM) ، SAN أو DAS لتخزين بياناتها في ملفات قاعدة البيانات. لذلك ، في الممارسة العملية ، من المحتمل أن يتم رسم بيانات منظمة العفو الدولية من بيئات SAN و NAS.
يقول بروس كورنفيلد ، كبير موظفي المنتجات في Stormagic: “يمكن تخزين بيانات الذكاء الاصطناعى إما في NAS أو SAN. الأمر كله يتعلق بالطريقة التي تريدها أدوات الذكاء الاصطناعى أو تحتاج إلى الوصول إلى البيانات”. “يمكنك تخزين بيانات الذكاء الاصطناعي على SAN ، ولكن لن تقرأ أدوات الذكاء الاصطناعي عادة الكتل. وسوف يستخدمون نوعًا من بروتوكول الوصول إلى الملف للوصول إلى بيانات الحظر.”
ليس بالضرورة أن يكون بروتوكول واحد أفضل من الآخر. يعتمد ذلك كثيرًا على طبيعة مصادر البيانات وإخراج نظام الذكاء الاصطناعي
بالنسبة إلى نظام وثيقة أو قائم على الصور في المقام الأول ، قد يكون NAS سريعًا بما فيه الكفاية. لتطبيق مثل القيادة المستقلة أو المراقبة ، قد تستخدم الأنظمة تخزينًا محليًا في SAN أو حتى عالي السرعة.
مرة أخرى ، سيحتاج مهندسو البيانات أيضًا إلى التمييز بين مراحل التدريب والاستدلال لمشاريعهم والنظر في ما إذا كانت النفقات العامة لنقل البيانات بين أنظمة التخزين تفوق فوائد الأداء ، وخاصة في التدريب.
أدخل تخزين الكائن
وقد دفع هذا بعض المؤسسات إلى النظر في تخزين الكائنات كوسيلة لتوحيد مصادر البيانات لمنظمة العفو الدولية. تخزين الكائنات قيد الاستخدام بشكل متزايد مع الشركات ، وليس فقط في التخزين السحابي-تكتسب متاجر الكائنات المحلية حصة السوق أيضًا.
يتمتع الكائن ببعض المزايا لوكالة الذكاء الاصطناعى ، وليس أقلها بنية مسطحة ومساحة الاسم العالمية ، والنفقات العامة للإدارة المنخفضة (نسبيًا) ، وسهولة التوسع والتكلفة المنخفضة.
الأداء ، ومع ذلك ، لم يكن قوة لتخزين الكائنات. يميل هذا إلى جعلها أكثر ملاءمة للمهام مثل الأرشفة من التطبيقات التي تتطلب انخفاضًا في زمن الوصول ومستويات عالية من إنتاجية البيانات.
يعمل الموردون على سد فجوة الأداء. تخزين التخزين النقي و NetApp بيع أنظمة التخزين التي يمكنها التعامل مع الملفات والكائن ، وفي بعض الحالات ، قم بحظرها أيضًا. وتشمل هذه Pure’s FlashBlade ، والأجهزة التي تعمل على تشغيل نظام تشغيل تخزين ONTAP الخاص بـ NetApp. تمنح هذه التقنيات مديري التخزين المرونة لاستخدام أفضل تنسيقات البيانات ، دون إنشاء صوامع مرتبطة بأجهزة محددة.
يهدف آخرون ، مثل Hammerspace ، مع NAS المفرط ، إلى الضغط على أداء إضافي من المعدات التي تدير نظام ملفات الشبكة (NFS). هذا ، كما يجادلون ، يمنع الاختناقات حيث فشل التخزين في مواكبة وحدات معالجة الرسومات المتعطشة للبيانات (GPU).
وضع علامة على جميع الصناديق
ولكن حتى تصبح أنظمة تخزين الكائنات ذات الأداء الأفضل متاحًا على نطاق أوسع ، أو تنتقل المزيد من المؤسسات إلى منصات التخزين الشاملة ، فمن المحتمل أن تستخدم الذكاء الاصطناعي NAS و SAN و Object وحتى DAS مجتمعة.
ومع ذلك ، من المحتمل أن يتغير التوازن بين العناصر خلال عمر مشروع الذكاء الاصطناعي ، ومع تطور أدوات الذكاء الاصطناعى وتطبيقاتها.
في Pure ، شهدت Smith طلبات لأجهزة جديدة للبيانات غير المنظمة ، بينما يتم تلبية متطلبات قاعدة بيانات الحظر والمتجه لمعظم العملاء على الأجهزة الحالية.
يقول: “كل شيء عن الذكاء الاصطناعي التوليدي يدور حول فهم العلاقات”. “لديك بيانات المصدر لا تزال في بياناتك غير المنظمة ، إما ملف أو كائن ، وبياناتك المتجهة التي تجلس على الكتلة.”