البودكاست: الذكاء الاصطناعي وتأثيره على تخزين البيانات
في هذا البودكاست، نلقي نظرة على تأثير معالجة الذكاء الاصطناعي (AI) لتخزين البيانات مع شون روزمارين، نائب الرئيس لشؤون البحث والتطوير في هندسة العملاء في Pure Storage.
نحن نتحدث عن كيفية قيام الذكاء الاصطناعي بتحويل بيانات المؤسسة إلى مصدر حيوي لرؤية الأعمال، ولكننا نتحدث أيضًا عن التحديات التي نواجهها في تعقيد عمليات الذكاء الاصطناعي، والحاجة إلى إمكانية نقل البيانات، الوصول السريع للتخزين والقدرة على توسيع القدرة على السحابة.
يتحدث روزمارين أيضًا عن أشكال معينة من البيانات الموجودة في الذكاء الاصطناعي، مثل المتجهات ونقاط التفتيش، والحاجة إلى بنية تحتية لتخزين البيانات كثيفة وسريعة ومستدامة وسهلة الإدارة.
أنتوني أدشيد: ما هو المختلف في أعباء عمل الذكاء الاصطناعي؟
شون روزمارين: أعتقد أن الجزء الأكثر إثارة للاهتمام في هذا هو، أولاً وقبل كل شيء، دعونا نجعل الذكاء الاصطناعي يتوافق مع الإصدار التالي من التحليلات.
لقد رأينا ذكاء الأعمال. لقد رأينا التحليلات. لقد رأينا ما أطلقنا عليه التحليلات الحديثة. الآن، نحن نرى الذكاء الاصطناعي.
ما هو مختلف في النهاية هو أننا ننظر الآن إلى مجموعة من البيانات، وليس فقط المجموعة العامة كما ننظر في ChatGPT، ولكن مجموعات البيانات الفردية داخل كل مؤسسة أصبحت الآن في الواقع الذهب الذي يتم حصاده في هذه النماذج؛ المكتبات التي تدرب الآن كل هذه النماذج.
وهكذا، عندما تفكر في حجم البيانات التي تمثلها، فهذا عنصر واحد. والشيء الآخر هو أنه يتعين عليك الآن التفكير في عنصر الأداء المتمثل في أخذ كل هذه الكميات الكبيرة من البيانات والقدرة على التعلم منها.
ثم لديك عنصر آخر يقول: “يجب علي دمج كل مصادر البيانات هذه عبر جميع الصوامع المختلفة لمؤسستي، وليس فقط البيانات الموجودة في مقر العمل، والبيانات الموجودة في السحابة، والبيانات التي أقوم بإنشائها”. أنا أشتري من مصادر خارجية البيانات الموجودة في SaaS [software as a service]’.
وأخيرًا، أود أن أقول إن هناك عنصرًا بشريًا كبيرًا في هذا الأمر. هذه هي التكنولوجيا الجديدة. إنه أمر معقد للغاية في هذه المرحلة بالذات، على الرغم من أننا جميعًا نعتقد أنه سيتم توحيده وسيتطلب موظفين، وسيتطلب مجموعات من المهارات التي لا تمتلكها معظم المنظمات في متناول أيديها.
ما الذي تحتاجه وحدة التخزين للتعامل مع أعباء عمل الذكاء الاصطناعي؟
روزمارين: في نهاية المطاف، عندما نفكر في تطور التخزين، فقد رأينا شيئين.
بادئ ذي بدء، أعتقد أنه ليس هناك شك في ذهن أي شخص في هذه المرحلة، أن محركات الأقراص الثابتة تسير في طريق طائر الدودو إلى حد كبير. و نحن ننتقل إلى كل فلاشلأسباب تتعلق بالموثوقية، ولأسباب تتعلق بالأداء، ولأسباب تتعلق في النهاية بالاقتصاد البيئي.
ولكن، عندما نفكر في التخزين، فإن أكبر عقبة في الذكاء الاصطناعي هي في الواقع نقل التخزين. إنها تأخذ كتلًا من التخزين وتنقلها لتلبية أعباء عمل معينة عالية الأداء.
ما نريده حقًا هو بنية تخزين مركزية يمكن استخدامها ليس فقط لجمع المعلومات، ولكن أيضًا للتدريب وتفسير هذا التدريب في السوق.
في النهاية، ما أتحدث إليكم عنه هو الأداء لإطعام وحدات معالجة الرسومات الجائعة. نحن نتحدث عن زمن الاستجابة، بحيث عندما نقوم بتشغيل نماذج الاستدلال، يحصل عملاؤنا على الإجابات بأسرع ما يمكن دون انتظار. نحن نتحدث عن القدرة والحجم. نحن نتحدث عن الترقيات والتوسعات غير التخريبية.
مع تغير احتياجاتنا وزيادة أهمية هذه الخدمات لمستخدمينا، لا يتعين علينا تقليل البيئة فقط حتى نتمكن من إضافة سعة تخزينية إضافية.
أخيرًا وليس آخرًا، سيكون عنصر الاستهلاك السحابي: القدرة على توسيع هذه الكميات بسهولة إلى السحابة. إذا أردنا القيام بهذا التدريب أو الاستدلال في السحابة، ومن ثم استهلاكها بشكل واضح كخدمة، والابتعاد عن عمليات ضخ CapEx الضخمة مقدمًا وبدلاً من ذلك نتطلع إلى استهلاك مساحة التخزين التي نحتاجها كما نحتاج إليها وبشكل كامل بنسبة 100٪ عبر اتفاقيات مستوى الخدمة وكخدمة.
هل هناك أي شيء يتعلق بالطرق التي يتم بها الاحتفاظ بالبيانات للذكاء الاصطناعي، مثل استخدام المتجهات أو نقاط التفتيش أو الأطر المستخدمة في الذكاء الاصطناعي مثل TensorFlow وPyTorch، التي تملي علينا كيفية الاحتفاظ بالبيانات في مخزن الذكاء الاصطناعي؟
روزمارين: نعم، هذا صحيح بالتأكيد، خاصة إذا قارناه بالطريقة التي تم بها استخدام التخزين تاريخيًا في قواعد البيانات العلائقية أو حماية البيانات.
عندما تفكر في قواعد البيانات المتجهة، وعندما تفكر في جميع أطر عمل الذكاء الاصطناعي، وتفكر في كيفية تغذية مجموعات البيانات هذه إلى وحدات معالجة الرسومات، دعني أقدم لك تشبيهًا.
في جوهر الأمر، إذا كنت تفكر في وحدات معالجة الرسومات، وهذه الاستثمارات الباهظة الثمن التي قامت بها المؤسسات والسحابات، ففكر فيها كطلاب دكتوراه. فكر فيهم كأشخاص باهظي الثمن وموهوبين جدًا وأذكياء جدًا يعملون في بيئتك. وما تريد القيام به هو التأكد من أن لديهم دائمًا ما يفعلونه، والأهم من ذلك، عندما يكملون عملهم، تكون موجودًا لجمع هذا العمل والتأكد من تقديم الحجم التالي من العمل إليهم.
وهكذا، في عالم الذكاء الاصطناعي، ستسمع هذا المفهوم لقواعد البيانات المتجهة ونقاط التفتيش. ما يعنيه ذلك بشكل أساسي هو “أنا أنتقل من قاعدة بيانات علائقية إلى قاعدة بيانات متجهة”. وفي الأساس، عندما يتم الاستعلام عن معلوماتي، يتم الاستعلام عنها عبر ديناميكيات متعددة.
نحن نطلق على هذه المعلمات، ولكننا في الأساس ننظر إلى البيانات من جميع الزوايا. وتقوم وحدات معالجة الرسومات بإخبار وحدة التخزين بما نظرت إليه وأين تقع في عبء العمل الخاص بها.
التأثير على التخزين هو أنه يفرض المزيد من عمليات الكتابة بشكل ملحوظ. وعندما تفكر في عمليات القراءة مقابل الكتابة، فهي مهمة جدًا من ملف تعريف الأداء. عندما تفكر في الكتابات على وجه الخصوص، فهذه كتابات صغيرة جدًا. هذه هي في الأساس إشارات مرجعية لمكان وجودهم في عملهم.
وهذا في الواقع يفرض ملف تعريف أداء مختلفًا تمامًا عما اعتاد عليه الكثيرون. إنها تقوم ببناء ملفات تعريف أداء جديدة لما نفكر فيه على وجه التحديد في التدريب.
الآن، الاستدلال يدور حول الكمون والتدريب. الأمر كله يتعلق بعمليات IOPs. ولكن للإجابة على سؤالك بشكل محدد للغاية، فإن هذا يفرض نسبة كتابة أعلى بكثير مما كنا ننظر إليه تقليديًا. وأود أن أقترح على جمهورك أن النظر إلى 80% من الكتابات، و20% من القراءة في بيئة التدريب هو أكثر ملاءمة بكثير مما كنا ننظر إليه تقليديًا بنسبة 50/50.
في رأيك، كيف سيبدو التخزين المؤسسي خلال خمس سنوات مع زيادة استخدام الذكاء الاصطناعي؟
روزمارين: أحب أن أفكر في التخزين مثل إطارات سيارتك.
في الوقت الحالي، يركز الجميع بشدة على هيكل سيارتهم. إنهم يركزون بشكل كبير على وحدات معالجة الرسومات والأداء ومدى السرعة التي يمكنهم العمل بها وما يمكنهم تقديمه.
لكن الحقيقة هي أن القيمة الحقيقية في كل هذا هي البيانات التي تقوم بالتنقيب عنها؛ جودة تلك البيانات، واستخدام تلك البيانات في نماذج التدريب هذه لتمنحك ميزة فعلية – سواء كان ذلك في التخصيص والتسويق، أو في التداول عالي التردد إذا كنت بنكًا أو تعرف عميلك، أو في رعاية المرضى داخل منشأة للرعاية الصحية.
عندما نتطلع إلى مستقبل التخزين، أعتقد أنه سيتم الاعتراف بالتخزين والاعتراف به لكونه بالغ الأهمية في دفع القيمة النهائية لمشاريع الذكاء الاصطناعي هذه.
أعتقد بوضوح أن ما نراه هو مصفوفات تخزين أكثر كثافة وكثافة. هنا في Pure، نحن ملتزمون بالفعل بتسويق ذلك. سيكون لدينا محركات أقراص بسعة 300 تيرابايت بحلول عام 2026. وأعتقد أننا نشهد صناعة محركات الأقراص ذات الحالة الصلبة للسلع الأساسية خلف ذلك بشكل كبير. أعتقد أنهم يهدفون إلى الوصول إلى حوالي 100 تيرابايت في نفس الإطار الزمني، لكنني أعتقد أننا سنستمر في رؤية محركات أقراص أكثر كثافة وكثافة.
أعتقد أننا سنرى أيضًا، جنبًا إلى جنب مع تلك الكثافة، استهلاكًا أقل للطاقة للطاقة. ليس هناك شك في أن الطاقة والحصول عليها هما القاتل الصامت في بناء الذكاء الاصطناعي، لذا فإن الوصول إلى نقطة حيث يمكننا استهلاك طاقة أقل لدفع المزيد من الحوسبة سيكون أمرًا بالغ الأهمية.
وأخيرًا، سأصل إلى نقطة التخزين المستقل هذه. إن استخدام طاقة أقل فأقل – الطاقة البشرية، والقوى العاملة البشرية – في العمليات اليومية، والترقيات، والتوسعات، وضبط التخزين هو في الواقع ما تطلبه الشركات، للسماح لها في النهاية بتركيز طاقتها البشرية على البناء. خارج أنظمة الغد.
لذلك، عندما تفكر في الأمر، في الحقيقة: الكثافة، وكفاءة الطاقة، والبساطة.
بعد ذلك، أعتقد أنك ستستمر في رؤية انخفاض تكلفة الجيجابايت لكل تيرابايت في السوق، مما يسمح بالمزيد والمزيد من استهلاك التخزين والسماح للمؤسسات بإضاءة المزيد والمزيد من بياناتها بنفس المقدار من استثمار.