تقنية

المقابلة: تخزين خالص على تحدي بيانات الذكاء الاصطناعى وراء الأجهزة


لمعالجة بنجاح أعباء العمل الذكية الاصطناعية (AI) ليس فقط عن رمي موارد الحساب والتخزين في ذلك. من المؤكد أنك تحتاج إلى قوة معالجة كافية وتخزين لتزويدها بالبيانات بالمعدل الصحيح ، ولكن قبل أن تتمكن أي من هذه العمليات من تحقيق النجاح ، من الأهمية بمكان ضمان جودة البيانات المستخدمة في تدريب الذكاء الاصطناعي.

هذه هي الرسالة الأساسية من Par Botes ، نائب رئيس البنية التحتية لمنظمة العفو الدولية في Pure Storage ، التي وقعنا عليها الأسبوع الماضي في حدث تسريع الشركة في لاس فيجاس.

أكد Botes على الحاجة إلى الشركات التي تعالج منظمة العفو الدولية لالتقاط البيانات وتنظيمها وإعدادها ومواءتها. ذلك لأن البيانات يمكن أن تكون غالبًا غير مكتملة أو غير ملائمة للأسئلة التي تحاول AI الإجابة عليها.

تحدثنا إلى botes حول هندسة البيانات ، وإدارة البيانات ، واستخدام بيانات البحيرة والتأكد من أن مجموعات البيانات تتناسب مع الحاجة إلى معالجتها من قبل الذكاء الاصطناعى.

ما الذي ينظر إليه التخزين الخالص باعتباره تحديات التخزين القادمة أو الناشئة في الذكاء الاصطناعي؟

أعتقد أنه من الصعب إنشاء أنظمة تحل المشكلات باستخدام الذكاء الاصطناعي دون أن يكون لديك طريقة جيدة لتنظيم البيانات ، والتقاط البيانات ، ثم إعدادها و مواءمةها مع عناصر المعالجة ، وحدات معالجة الرسومات [graphics processing units]، هذا يجعلهم يصلون إلى البيانات بسرعة كافية.

ما الذي يجعل هذه التحديات على وجه الخصوص صعبة؟

سأبدأ بأكثرها وضوحًا: كيف أحصل على وحدات معالجة الرسومات لاستهلاك البيانات؟ وحدات معالجة الرسومات قوية بشكل لا يصدق ، وهم يقودون كمية هائلة من النطاق الترددي.

إنه من الصعب إطعام وحدات معالجة الرسومات مع البيانات في وتيرة نستهلكها. بدأ هذا في حلها بشكل متزايد ، خاصة في النهاية. ولكن بالنسبة لنوع الشركات العادية للشركة ، فهذه أنواع جديدة من الأنظمة وأنواع جديدة من المهارات التي لديهم لتنفيذها.

“مع تحسن بياناتك ، مع تغير رؤيتك ، يجب أن تتغير بياناتك معها. وبالتالي ، يجب أن يتطور نموذجك معها. تصبح هذه عملية مستمرة”

par botes ، تخزين نقي

إنها ليست مشكلة صعبة على الجانب العلمي ، إنها مشكلة صعبة في العمليات ، لأن هذه ليست عضلات موجودة في المؤسسة لفترة طويلة.

الجزء التالي من هذه المشكلة هو: كيف يمكنني إعداد بياناتي؟ كيف أجمعها؟ كيف أعرف أين لدي البيانات الصحيحة؟ كيف أقوم بتقييمها؟ كيف يمكنني تتبعه؟ كيف يمكنني تطبيق النسب لأرى أن هذا النموذج مدرب مع هذه المجموعة من البيانات؟ كيف أعرف أن لديها مجموعة بيانات كاملة؟ هذه مشكلة صعبة للغاية.

هل هذه مشكلة تختلف بين العميل وعبء العمل؟ لأنني أستطيع أن أتخيل أن المرء قد يعرف ، فقط من خلال الخبرة الموجودة داخل المؤسسة ، أن لديك جميع البيانات التي تحتاجها. أو ، في موقف آخر ، قد يكون من غير الواضح ما إذا كنت تفعل أم لا.

من الصعب جدًا معرفتها ، دون التفكير عنها [whether] لديك كل البيانات التي تحتاجها. سأعطيك مثالاً.

لقد أمضيت سنوات عديدة في بناء سيارة ذاتية القيادة-شبكات الإدراك ، وأنظمة القيادة-ولكن في كثير من الأحيان ، وجدنا أن السيارة لم تؤدها أيضًا في بعض الظروف.

تحول الطريق إلى اليسار وشاقة قليلا ، مع سيارات أخرى من حوله. ثم أدركنا أنه ليس لدينا ما يكفي من بيانات التدريب. لذلك ، وجود طريقة مبدئية للتفكير حول البيانات ، والتفكير حول الاكتمال ، والتفكير في النطاق [of data]، وللحصول على جميع البيانات لذلك ، وتحليلها رياضيا ، ليس تخصصًا شائعًا للغاية خارج شركات التدريب المتطورة.

بعد النظر في المشكلات التي تميل إلى الظهور ، والصعوبات التي يمكن أن تنشأ مع أعباء عمل الذكاء الاصطناعي ، كيف يمكن أن تقول أن العملاء يمكنهم البدء في تخفيف هذه الأشياء؟

النهج العام أوصي به هو التفكير في عمليات هندسة البيانات الخاصة بك. لذلك ، نحن نتشارك مع شركات هندسة البيانات التي تفعل أشياء مثل ليكويت.

فكر في: كيف يمكنني تطبيق منزل ليكلي على بياناتي الواردة؟ كيف يمكنني استخدام بيت البحيرة لتنظيفه وإعداده؟ في بعض الحالات ، ربما حتى تحويله وجعله جاهزًا لنظام التدريب. سأبدأ بالتفكير في الانضباط الهندسي للبيانات في شركتي وكيف يمكنني إعداد ذلك لأكون جاهزًا لمنظمة العفو الدولية؟

ما الذي يتكون منه هندسة البيانات إذا كنت تنطلق في ذلك؟

تتكون هندسة البيانات عمومًا من كيف يمكنني الوصول إلى مجموعات البيانات الأخرى التي يمكن أن توجد في قواعد بيانات الشركات ، أو في الأنظمة المهيكلة ، أو في أنظمة أخرى لدينا ، وكيف يمكنني الوصول إلى ذلك؟ كيف يمكنني تناول ذلك في شكل وسيط أنا ليك هاوس؟ وكيف أقوم بعد ذلك بتحويل ذلك وتحديد البيانات من تلك المجموعات التي قد تكون عبر مستودعات مختلفة لإنشاء مجموعة بيانات تمثل البيانات التي أريد تدريبها.

هذا هو الانضباط الذي نسميه عادة هندسة البيانات. وأصبحت مهارة متميزة للغاية وانضباط متميز للغاية.

عندما يتعلق الأمر بالتخزين ، كيف يدعم العملاء بيانات البحيرة مع التخزين؟ في أي أشكال؟

اليوم ، ما هو شائع هو أن لديك شركات السحابة ، التي توفر لبيانات البحيرة ، وللحصول على منازل النظام.

نحن نعمل مع العديد منهم. نحن نقدم حلولًا كاملة تتضمن بائعي بيانات Lakehouse. ونحن شريك مع هؤلاء.

وبعد ذلك ، بالطبع ، التخزين الأساسي الذي يجعله يعمل بسرعة ويعمل بشكل جيد. وهكذا ، كما أقول ، فإن المكونات الرئيسية هي قواعد بيانات البيع للبيانات الشهيرة والبنية التحتية التي تحتها ذلك ، ثم توصيلها إلى أنظمة تخزين أخرى لجانب التدريب.

بالنظر إلى هندسة البيانات ، هل هو في الحقيقة تحد لمرة واحدة ، أم أنه شيء مستمر حيث تعالج المنظمات الذكاء الاصطناعي؟

هندسة البيانات من الصعب فصلها عن التخزين. إنهم ليسوا نفس الشيء بالضبط ، لكنهم يرتبطون ارتباطًا وثيقًا.

بمجرد البدء في استخدام الذكاء الاصطناعي ، تريد تسجيل جميع البيانات الجديدة. تريد تحويله وجعله جزءًا من نظام الذكاء الاصطناعى ، سواء كنت تستخدم ذلك خرقة [retrieval augmented generation] أو صقلها ، أو إذا كنت متقدمًا ، فأنت تقوم ببناء النموذج الخاص بك.

ستقوم باستمرار بزيادةها وتجعلها أفضل. مع تحسن بياناتك ، مع تغير رؤيتك ، يجب أن تتغير بياناتك معها. وبالتالي ، يجب أن يتطور النموذج الخاص بك معه.

هذه تصبح عملية مستمرة.

عليك أن تفكر في بعض الأشياء ، مثل النسب. ما هو تاريخ هذه البيانات؟ ما الذي نشأ من أين؟ ما الذي يستهلك أين؟ تريد التفكير فيه ، عندما يستخدم الأشخاص نموذجك أو عندما تستخدم نموذجك داخليًا. ما هو السؤال الذي يتم طرحه؟ ما هو السؤال الذي يطرحه؟

وتريد تخزينها واستخدامها لضمان الجودة ، وأيضًا لمزيد من التدريب في المستقبل. هذا يصبح ما نسميه دولاب الموازنة من AI للبيانات. يتم تناول البيانات باستمرار ، واستهلاكها ، وحسابها ، أو تناولها ، واستهلاكها ، محسوبة.

وهذه الدائرة لا تتوقف.

هل هناك أي شيء آخر تعتقد أن العملاء يجب أن ينظروا إليه؟

يجب أن تفكر أيضًا ، ما هي هذه البيانات حقًا ، ما الذي تمثله البيانات؟ إذا كانت هذه البيانات تمثل شيئًا تلاحظه أو شيء تقوم به ، إذا كان لديك فجوات في البيانات ، فإن الذكاء الاصطناعى سوف يملأ هذه الثغرات. عندما تملأ هذه الثغرات بشكل خاطئ ، نسميها هلوسة.

الحيلة هي معرفة بياناتك جيدًا بما يكفي لدرجة أنك تعرف أين توجد ثغرات. وإذا كان لديك فجوات ، هل يمكنك العثور على طرق لملء هذه الثغرات؟ عندما تصل إلى هذا المستوى من التطور ، تبدأ في استخدام نظام مثير للإعجاب حقًا.

حتى إذا بدأت بأساسيات استخدام خدمة سحابية ، فابدأ بتسجيل ما ترسله وما تعود إليه. لأن ذلك يشكل أساسًا لانضباط إدارة البيانات. وعندما أستخدم مصطلح هندسة البيانات ، بين هندسة البيانات والتخزين ، هذا الانضباط يسمى إدارة البيانات.

هذه هي تنظيم البيانات ، والتي تريد أن تبدأ في وقت مبكر قدر الإمكان. لأنه بحلول الوقت الذي تستعد فيه للقيام بشيء ما وراء استخدام الخدمة ، لديك الآن أول مجموعة من البيانات لمهندسي البيانات الخاص بك ولتخزينك.

هذه رؤية هائلة أتمنى أن يفكر الجميع في القيام بها بسرعة.



Source link

زر الذهاب إلى الأعلى