تقنية

مقابلة: إنفيديا تتحدث عن أحمال عمل الذكاء الاصطناعي وتأثيراتها على تخزين البيانات


تختلف أحمال عمل الذكاء الاصطناعي تمامًا عن تلك التي رأيناها سابقًا في المؤسسة. وعبر المراحل المختلفة لعمل الذكاء الاصطناعي، يتم تحديد ملف تعريف الإدخال/الإخراج (I/O) و التأثيرات على التخزين يمكن أن تختلف بشكل كبير.

بعد التدريب المكثف، نضع الذكاء الاصطناعي في العمل من خلال الاستدلال على ما تعلمه. كما يجب أن نأخذ في الاعتبار أطر عمل الذكاء الاصطناعي المستخدمة وخصائصها، بالإضافة إلى مطالب التخزين ل التوليد المعزز بالاسترجاع (RAG) المراجع ونقاط التفتيش.

لقد سألنا عن كل هذا عندما التقينا إنفيديا نائب الرئيس والمدير العام لشركة DGX Systems، تشارلي بويل، في حدث Pure Storage Accelerate الأخير في لاس فيجاس.

في هذه المقالة الأولى من سلسلة مكونة من جزأين، يتحدث بويل عن تحديات البيانات الرئيسية التي يواجهها العملاء الذين يشرعون في مشاريع الذكاء الاصطناعي، ونصائح عملية للعملاء الذين يبدأون في استخدام الذكاء الاصطناعي، الاختلافات بين أنواع أحمال عمل الذكاء الاصطناعي، مثل التدريب والضبط الدقيق والاستدلال وRAG ونقاط التفتيش.

ما هو التحدي الأكبر فيما يتعلق ببيانات الذكاء الاصطناعي الذي تراه للعملاء؟

التحدي الأكبر هو معرفة البيانات المفيدة للذكاء الاصطناعي الخاص بكما هي البيانات السيئة بالنسبة لها، وما هي البيانات التي قد لا تكون ذات أهمية.

ستوفر البيانات الجيدة رؤى أفضل ونتائج أكثر دقة. ومن الواضح أنه سواء كنت تستخدم روبوت محادثة أو أي شيء آخر، فإن هذه البيانات ستوفر الإجابة الصحيحة للمستخدم النهائي. أما البيانات السيئة التي قد أعتبرها بيانات قد تعكر صفو الإجابة ولا تضيف أي قيمة.

قد تكون هذه بيانات قديمة. إذا كنت أستخدم روبوت محادثة لخدمة العملاء، وكانت تذكرة الدعم تعود إلى 15 عامًا مضت، فهل هذا مفيد؟ ربما يكون مفيدًا وربما لا يكون كذلك. عليك أنت، في مؤسستك الخاصة، وفي مجال عملك الخاص، أن تفرق بين الأمرين.

إذا كان سؤالاً موجهًا إلى قسم المساعدة منذ 15 عامًا، فقد يسأل: هل خط هاتفك متصل بالمودم؟ لم يعد هذا ينطبق عليك.

ولكن في سياق التصنيع مع البنية الأساسية في المصنع، قد يكون بعض هذه الأصول الرأسمالية قيد الاستخدام لمدة 20 أو 30 عامًا. لذا فإن تذكرة الدعم لمشكلة حدثت قبل 15 عامًا، والتي تحدث مرة واحدة فقط كل عقد من الزمان على منتج التصنيع هذا، قد تكون مفيدة للغاية بالنسبة لك.

لذا فإن جزءًا كبيرًا من الذكاء الاصطناعي للمؤسسات يعتمد على فهم البيانات التي تمتلكها. وعندما نتحدث عن البدء في استخدام الذكاء الاصطناعي، فمن الأسهل دائمًا البدء بالبيانات التي تشعر أنها آمنة.

إذا كنت سأقوم بإنشاء روبوت محادثة وستكون مجموعة بيانات التدريب الخاصة بي عبارة عن تذاكر مشكلات تكنولوجيا المعلومات من آخر 24 شهرًا، فربما يكون ذلك آمنًا للغاية. إنه شيء داخلي. تم تنظيمه بواسطة خبراء لأن موظفي تكنولوجيا المعلومات أخذوا المشكلة وكتبوا ملاحظات. أو أنها بيانات شركة تم فحصها، إنها معلومات من بياناتي الصحفية، من ملفاتي المقدمة إلى لجنة الأوراق المالية والبورصات، على سبيل المثال، أشياء أعلم أنه يجب أن تكون دقيقة من الناحية القانونية.

أو إليك معلومات من جميع بيانات التسويق المتاحة للعامة على موقع الويب مثل أوراق البيانات ومعلومات المنتج. لقد اطلع عليها شخص ما واعتقد أنه كتبها بشكل صحيح. لذا فمن السهل البدء بها.

ولكن بعد ذلك، كمؤسسة، قد تفكر في أنك تمتلك بيانات تعادل عشرين عامًا. فماذا ينبغي أن تفعل بكل هذه الأشياء؟ هل يمكنني خلق رؤى؟ وهذا ما تحتاجه لتحقيق أول فوز في مجال الذكاء الاصطناعي. عليك أن تُظهِر للناس أنه مفيد. ثم انتقل خطوة بخطوة إلى ما قد يكون الشيء التالي الأكثر فائدة لمستخدميك؟ يمكن أن يكون هؤلاء المستخدمون مستخدمين داخليين أو خارجيين.

إنشاء فرضية. من السهل جدًا تدريب الذكاء الاصطناعي من خلال ضبط النماذج الموجودة. لم تعد بحاجة إلى الانتظار ستة أشهر لبناء نموذج أساسي مثل GPT-3 أو GPT-4.

يمكنك استخدام نموذج جاهز للاستخدام مثل Llama، وضبطه بدقة ليناسب نطاقك، والقيام بذلك في غضون أسبوعين أو يوم واحد، حسب حجم النموذج والبنية الأساسية للحوسبة لديك.

أدشيد: ما هي نصائحك الرئيسية للعميل الذي يرغب في استخدام الذكاء الاصطناعي؟

أول شيء يجب أن تعرفه هو أن هناك عددًا هائلاً من تطبيقات الذكاء الاصطناعي الجاهزة التي تحتاج فقط إلى إضافة بياناتك إليها. لدينا كتالوج كبير على موقع Nvidia. هناك مواقع مثل Hugging Face، وأشياء من هذا القبيل، حيث لم يستخدم المستخدمون النماذج فحسب، بل علقوا عليها أيضًا.

أكثر ما نراه شيوعًا هو برامج المحادثة الآلية. حتى أكثر مستخدمي الذكاء الاصطناعي تقدمًا، الأشخاص الذين يحملون شهادات الدكتوراه في هذا المجال، عندما أتحدث إليهم، يقولون لي: يا رفاق، لستم بحاجة إلى برمجة برنامج المحادثة الآلية. كل أمثلة برامج المحادثة الآلية موجودة في العالم.

لا تحتاج إلى برمجة روبوت المحادثة. توجد جميع أمثلة روبوت المحادثة في العالم. اختر واحدًا للبدء به. قم بتخصيصه وفقًا لاحتياجاتك الخاصة. لا تحتاج إلى درجة الدكتوراه للبدء في مجال الذكاء الاصطناعي

تشارلي بويل، إنفيديا

اختر واحدة للبدء بها. وقم بتخصيصها وفقًا لاحتياجاتك الخاصة. لست بحاجة إلى الحصول على درجة الدكتوراه للبدء في مجال الذكاء الاصطناعي.

لذا، اختر نموذجًا جاهزًا للاستخدام. في العديد من الأماكن، بما في ذلك موقعنا، يمكنك تجربة النموذج الجاهز للاستخدام بالكامل عبر الإنترنت. ولا تحتاج إلى وضع أي من بياناتك الخاصة فيه.

لذا يمكنك أن تقول، جرب، على سبيل المثال، ماذا يفعل هذا النوع من النماذج بالنسبة لي؟ ما أنواع الأسئلة التي يمكنني الإجابة عليها به؟ يمكنك أن تقرر ما إذا كان ذلك مفيدًا لشركتك، وما إذا كان سيشكل روبوت محادثة جيدًا في مجال تكنولوجيا المعلومات أو بحثًا جيدًا عن خدمة العملاء.

إذا كان لديك موقع ويب ضخم أو مكتبة وثائق منتج، فهذا أمر سهل وآمن لوضع روبوت المحادثة أمامه.

باعتبارك مستخدمًا لتكنولوجيا المعلومات أو مستخدمًا لمؤسسة، لا تحتاج إلى أن تكون خبيرًا في برامج المحادثة الآلية لتتوصل إلى النموذج. النماذج موجودة. كل ما عليك فعله هو تزويدها ببياناتك الخاصة. اختر نموذجًا تعتقد أنه يعمل وأدخل بياناتك الخاصة فيه.

ولكن ضع فيه بيانات متاحة للعامة، لأنك لن تتعرض لأي مخاطر تتعلق بالامتثال. لذا فالأمر ليس مثل، “آسف، لقد سربت بعض المعلومات السرية للشركة”. إذا قمت بتدريبه على موقع ويب يحتوي على معلومات متاحة للعامة، فأنت آمن.

وبمجرد أن تجتاز هاتين التجربتين، ألق نظرة على بعض كتالوجات النماذج لترى ما إذا كان هناك مثال يمكنه حل نقطة ضعف معينة في عملك، والتي أنت على استعداد لتخصيص شهر أو ثلاثة أشهر من جهد المشروع لها.

ما هي الاختلافات من حيث ملف تعريف الإدخال/الإخراج بين التدريب، والتدريب على الضبط الدقيق، والاستدلال، والعمل مع RAG، والأطر المختلفة المستخدمة في الذكاء الاصطناعي؟ ما هي متطلبات نقاط التفتيش؟ وماذا تتطلب من التخزين؟

إذا كان نموذجًا كبيرًا، فأنت تتدرب من الصفر تحتاج إلى تخزين سريع جدًا لأن الكثير من الطرق التي يعمل بها تدريب الذكاء الاصطناعي هي أن الجميع يتعاملون مع نفس الملف في نفس الوقت لأن كل شيء يتم بالتوازي. وهذا يتطلب تخزينًا سريعًا للغاية واسترجاعًا سريعًا للغاية. إنه موجه للقراءة في الغالب.

مع نقاط التفتيش، يكون الأمر مكثفًا للغاية من حيث الإدخال والإخراج لأن هناك نسبة متناسبة لمجموعة بيانات التدريب. إذا كان لديك عقدة واحدة فقط تقوم بالتدريب، فإن احتمالية تعطل عقدة واحدة، واتصال الشبكة للعقدة الواحدة، تكون ضئيلة للغاية. لذا، إذا تمكنت من إنجاز تدريبي على عقدة واحدة وسيستغرق الأمر أربع ساعات لإجراء عملية التدريب هذه، فربما لا أحتاج إلى نقطة تفتيش.

في حالة حدوث أي شيء غير محتمل، يمكنني إعادة أربع ساعات. ثم هناك النقيض المتطرف، والذي نراه كثيرًا في نماذج اللغة الضخمة أو تكنولوجيا السيارات ذاتية القيادة، حيث قد تستغرق عملية التدريب ثلاثة أسابيع، وقد تستغرق ثلاثة أشهر، وقد يكون بها آلاف العقد الحاسوبية. أنت مضمون أنه مع مجموعة كبيرة بهذا الحجم ومجموعة تدريب طويلة بهذا القدر، سيحدث شيء ما.

سوف يصطدم شعاع كوني بشيء ما في تلك المجموعة مما قد يتسبب في حدوث خطأ ما. وإذا لم تقم بفحص نقطة التفتيش، فقد يستغرق الأمر شهرين على سبيل المثال، وإذا لم تقم بفحص نقطة التفتيش، فسوف يتعين عليك البدء من جديد تمامًا.

لذا فإن السؤال هو كم مرة أقوم بنقطة تفتيش؟ لأنه عندما أقوم بنقطة تفتيش، تتوقف جميع العمليات الحسابية. والأمر كله يتعلق بالكتابة. ويكتب الجميع في نفس الوقت.

عند تحديد نقطة التفتيش، في مجموعة مثالية، ينتهي الجميع في نفس الوقت تمامًا. في مجموعة مضبوطة جيدًا، يكون ذلك في غضون ثوانٍ قليلة. ثم في بعض الأحيان، في مجموعة كبيرة جدًا، قد يكون لديك بعض العقد التي، لأي سبب من الأسباب، قد تكون أبطأ قليلاً من غيرها. ربما تنحرف لبضع دقائق.

ولكن عندما يقول الجميع، لقد وصلت إلى علامة 10 كيلومتر، يتوقف الجميع ويكتبون. اعتمادًا على حجم النموذج وحجم البيانات لديك، فقد تستغرق عملية الكتابة وقتًا طويلاً للغاية. في بعض الأحيان، تستغرق عملية الكتابة هذه أكثر من ساعة.



Source link

زر الذهاب إلى الأعلى