البودكاست: بيانات الذكاء الاصطناعى تحتاج إلى فلاش قابل للتطوير ، ولكن يجب أن تكون عادلة أيضًا

في هذا البودكاست ، نتحدث إلى مدير منتجات ومؤسسات Quantum ، تيم شيرباك ، حول آثار الذكاء الاصطناعي (AI) على تخزين البيانات، وخاصة حول صعوبات تخزين البيانات على مدى فترات طويلة ومع كميات كبيرة جدًا من البيانات.
نتحدث عن المتطلبات الفنية أماكن منظمة العفو الدولية في التخزين، والتي يمكن أن تشمل الحاجة إلى جميع الفلاش في بنية قابلة للتطوير للغاية والحاجة إلى تجميع الإنتاجية عبر تدفقات متعددة وفردية.
نتحدث أيضًا عن واقع “النمو إلى الأبد” والحاجة إلى “الاحتفاظ بالأبد” ، وكيف يمكن للمؤسسات تحسين التخزين للتعامل مع مثل هذه المطالب.
على وجه الخصوص ، يذكر شيرباك استخدام مبادئ عادلة – إمكانية الاكتشاف ، إمكانية الوصول ، قابلية التشغيل البيني وإعادة التأهيل – كوسيلة للتعامل مع البيانات بطريقة مفتوحة كانت رائدة في المجتمع العلمي.
أخيرًا ، نتحدث عن كيف يمكن لموردي التخزين الاستفادة من الذكاء الاصطناعي للمساعدة في إدارة تلك الكميات الهائلة من البيانات عبر مخازن البيانات الشاسعة والمتنوعة.
ما هي الآثار التي تجلبها معالجة الذكاء الاصطناعى إلى تخزين البيانات؟
معالجة الذكاء الاصطناعى مطالب ضخمة على تخزين البيانات الأساسية لديك. الشبكات العصبية مكثفة بشكل كبير. يأخذون كمية كبيرة من البيانات.
التحدي الأساسي هو إطعام الوحش. لقد حصلنا على مجموعات كمبيوتر قوية ومكلفة بشكل كبير تستند إلى وحدات معالجة الرسومات التي تعطش البيانات هذه [graphics processing units]. وهكذا التحدي الأساسي هو كيف نغذي هذه البيانات بمعدل ما ، بحيث يتم تشغيلها بكامل طاقتها طوال الوقت ، لمجرد كمية هائلة من التحليل الحسابي هذا مطلوب. الأمر كله يتعلق بالإنتاجية العالية والكمون المنخفض.
أولاً ، هذا يعني أننا بحاجة إلى NVME [non-volatile memory express] و All-Flash Solutions. ثانياً ، تميل هذه الحلول إلى أن يكون لها بنية متوسطة حتى يتمكنوا من النمو والتفاعل بشكل مريح مع الأداء ، حيث يمكن أن تكون هذه المجموعات كبيرة جدًا أيضًا. أنت بحاجة إلى وصول سلس إلى جميع البيانات في مساحة الاسم المسطحة بحيث تتمتع جميع مجموعات الحساب بوضوح لجميع البيانات.
في الإطار الزمني الحالي ، هناك الكثير من التركيز على RDMA القدرة – الوصول عن بُعد للذاكرة المباشرة – بحيث تتمتع جميع الخوادم وعقد التخزين في هذه المجموعة بوصول مباشر ووضوح إلى موارد التخزين. هذا ، أيضًا ، يمكنه تحسين الوصول إلى التخزين عبر الكتلة. ثم أخيرًا ، لا يقتصر الأمر على إجمالي الإنتاجية المرغوبة ، ولكن أيضًا أداءً مهمًا للغاية.
وهكذا ، هناك بنيات جديدة لها عملاء موازين للبيانات التي تسمح لك ليس فقط بتجميع تدفقات متعددة ، ولكن أيضًا تحسين كل من هذه التدفقات الفردية عن طريق الاستفادة من مسارات البيانات المتعددة للحصول على البيانات إلى وحدات معالجة الرسومات.
كيف يمكن للمؤسسات إدارة التخزين بشكل أكثر فاعلية ، بالنظر إلى الآثار المحتملة للذكور على البيانات ، والاحتفاظ بالبيانات ، وما إلى ذلك؟
مع الذكاء الاصطناعى في هذه الأيام ، هناك مشكلتان واضحتان حقًا.
أحدهما هو أننا حصلنا على نمو بيانات إلى الأبد ، ولدينا الاحتفاظ بالبيانات إلى الأبد التي ننجحها في هذه الحلول. وهكذا هناك كميات هائلة من البيانات أعلاه وما هو أبعد من ما يتم حسابه في سياق أي فرد يعمل في مجموعة GPU.
يجب الحفاظ على هذه البيانات على المدى الطويل بتكلفة معقولة.
هناك حلول في السوق هي مزيجًا فعليًا من الفلاش والقرص والشريط ، حتى تتمكن من تحسين تكلفة الحل وكذلك أداء الحل من خلال وجود مستويات وكميات مختلفة عبر تلك الوسائط الثلاثة. من خلال القيام بذلك ، يمكنك حجم الأداء وفعالية التكلفة للحل الذي تستخدمه لتخزين كل هذه البيانات على المدى الطويل.
الشيء الآخر الذي أوصي به للمؤسسات التي تبحث في كيفية حل هذه المشكلة المتمثلة في البيانات إلى الأبد وإلى الأبد هو النظر في مفهوم إدارة البيانات العادلة. كان هذا المفهوم موجودًا لمدة ست أو ثماني سنوات. إنه يأتي من جانب البحث في المنزل في المنظمات التي تبحث في كيفية تنظيم جميع أبحاثها ، ولكن لها أيضًا تأثير وقدرة حقيقية لمساعدة الناس أثناء النظر إلى مجموعات بيانات الذكاء الاصطناعى الخاصة بهم أيضًا.
Fair هو اختصار للاكتشاف ، قابل للتقييم ، قابل للتشغيل وقابل لإعادة الاستخدام. هذه حقا مجموعة من المبادئ [that allow] أنت [to] قياس بيئة إدارة البيانات الخاصة بك للتأكد من أنك مع تطور البنية التحتية لإدارة البيانات ، فأنت تقيسها مقابل هذه المبادئ [and] القيام بأفضل وظيفة يمكنك تنسيق كل هذه البيانات. إنه نوع من مثل أخذ القليل من علم المكتبة وتطبيقه في العصر الرقمي.
كيف يمكن لمنظمة العفو الدولية أن تساعد في تخزين البيانات لمنظمة العفو الدولية؟
هذا سؤال مثير للاهتمام حقًا.
أعتقد أن هناك بعض السيناريوهات الأساسية حيث يقوم بائعي التخزين بجمع البيانات من عملائهم ، يمكنهم تحسين العمليات وإمكانية دعم البنية التحتية على أساس عالمي من خلال تجميع تجربة وأنماط الاستخدام ، وما إلى ذلك ، والتي يمكننا استخدام خوارزميات متقدمة لدعم العملاء بشكل أكثر فاعلية.
لكنني أعتقد أنه من المحتمل أن يكون تطبيق AI وتخزين البيانات هو مفهوم التخزين الذاتي ، أو على الأرجح إدارة بيانات مدركة للذات. وفكرة أنه يمكننا تصنيف البيانات الوصفية الغنية ، والبيانات حول البيانات التي نقوم بتخزينها ، ويمكننا استخدام الذكاء الاصطناعي للقيام بذلك الفهرسة ورسم خرائط الأنماط.
مع نمو هذه مجموعات البيانات الأكبر والأكبر ، ستتمكن الذكاء الاصطناعى من التصنيف التلقائي وتوصيل مجموعات البيانات ذاتية بطرق مختلفة. سيفيد ذلك المنظمات من القدرة على الاستفادة بسرعة أكبر من مجموعات البيانات التي هي تحت تصرفها.
فقط فكر فيما يتعلق بمثال مثل الرياضة وكيف يمكن أن تتمكن الذكاء الاصطناعي من توثيق فريق أو مهنة للاعب بسهولة فقط من خلال مراجعة جميع أفلام اللاعب والمقالات وغيرها من المعلومات التي يمكن أن تمكن AI من الوصول إليها. ثم عندما يتقاعد لاعب رائع أو يمر ، اليوم بدون منظمة العفو الدولية ، يمكن أن يكون نوعًا من التدافع المجنون للدوري أو فريق لجمع كل لقطات رائعة وتاريخ اللاعب للأخبار الليلية أو للفيلم الوثائقي الذي يقومون به ، ولكن مع الذكاء الاصطناعي ، لدينا فرصة أكبر للوصول إلى تلك البيانات.