مقابلة: إنفيديا تتحدث عن متطلبات عمل الذكاء الاصطناعي وأداء التخزين
تعد أحمال عمل الذكاء الاصطناعي جديدة ومختلفة عن تلك التي رأيناها سابقًا في المؤسسة. وتتراوح هذه الأحمال من التدريب المكثف على الحوسبة إلى الاستدلال اليومي والإشارة إلى RAG التي بالكاد تداعب وحدة المعالجة المركزية وإدخال/إخراج التخزين (I/O).
لذا، عبر الأنواع المختلفة من أحمال عمل الذكاء الاصطناعي، فإن ملف تعريف الإدخال/الإخراج و التأثيرات على التخزين يمكن أن تختلف بشكل كبير.
في هذه الحلقة الثانية من سلسلة مكونة من جزأين، نتحدث إلى نفيديا نائب الرئيس والمدير العام لشركة DGX Systems، تشارلي بويل، يتحدث عن متطلبات نقاط التفتيش في الذكاء الاصطناعي، وأدوار علامات أداء التخزين مثل الإنتاجية وسرعة الوصول في عمل الذكاء الاصطناعي، وسمات التخزين المطلوبة لأنواع مختلفة من أحمال عمل الذكاء الاصطناعي.
نستأنف المناقشة بعد الدردشة في المقال الأول حول التحديات الرئيسية في البيانات لمشاريع الذكاء الاصطناعي، والنصائح العملية للعملاء الذين يشرعون في استخدام الذكاء الاصطناعي، والاختلافات عبر أنواع أحمال عمل الذكاء الاصطناعي مثل التدريب والضبط الدقيق والاستدلال وRAG ونقاط التفتيش.
أنتوني أدشيد: هل هناك نوع من النسبة القياسية لكتابات نقطة التفتيش إلى حجم نموذج التدريب؟
تشارلي بويل:نعم. فبينما نتواصل مع العملاء بشأن نماذجهم وتدريبهم، فإننا نمتلك متوسطات. لأننا سنعرف المدة التي يجب أن يستغرقها حجم النموذج وعدد عناصر الحوسبة التي لديك. ثم نتحدث مع العملاء حول تحمل المخاطر.
بعض الباحثين لدينا نقطة تفتيش كل ساعة. بعض نقاط التفتيش مرة واحدة يوميًا. ويعتمد ذلك على ما يتوقعونه والمدة التي يستغرقها الوصول إلى نقطة التفتيش.
وهناك أيضًا مقدار الوقت الذي يستغرقه التعافي من نقطة التفتيش. لأنك قد تقول، “حسنًا، كنت أتجاوز نقطة التفتيش مرة واحدة يوميًا. وفي مكان ما بين اليوم الرابع واليوم الخامس، واجهت مشكلة”.
قد لا تدرك أنك واجهت مشكلة حتى اليوم السادس لأن الوظيفة لم تتوقف، ولكنك تنظر إلى النتائج وتكتشف شيئًا غريبًا. لذا يتعين عليك في الواقع الرجوع بضعة أيام إلى تلك النقطة.
ثم يتعلق الأمر بـ “ما مدى السرعة التي ألاحظ بها وجود مشكلة مقارنة بالمسافة التي أريد أن أعود بها إلى نقطة التفتيش؟” ولكن لدينا بيانات لأننا نقوم بهذه الجولات التدريبية الضخمة – كل شيء من جولة تدريبية تستمر لبضع دقائق إلى شيء يستمر لمدة عام تقريبًا.
لدينا كل هذه البيانات ويمكننا مساعدة العملاء على تحقيق التوازن الصحيح. هناك تقنيات ناشئة نعمل عليها مع شركائنا في التخزين للتوصل إلى طرق لتنفيذ الكتابة، ولكن أيضًا الاستمرار في تشغيل الحوسبة أثناء توزيع الإدخال/الإخراج مرة أخرى على أنظمة التخزين. هناك الكثير من التقنيات الناشئة في هذا المجال.
أدشيد: لقد تحدثنا عن التدريب وتحدثت عن الحاجة إلى تخزين سريع. ما هو دور الإنتاجية إلى جانب السرعة؟
بويل: لذا الإنتاجية والسرعة في جانب التدريب ترتبط ارتباطًا وثيقًا لأنك يجب أن تكون قادرًا على التحميل بسرعة. معدل الإنتاجية وأداء القراءة الإجمالي هما المقياس نفسه تقريبًا بالنسبة لنا.
هناك أيضًا وقت استجابة، والذي قد يتراكم اعتمادًا على ما تحاول القيام به. إذا كنت بحاجة إلى استرداد عنصر واحد من مخزن البيانات الخاص بي، فإن وقت الاستجابة الخاص بي هو ذلك فقط.
ولكن مع الذكاء الاصطناعي الحديث، وخاصة مع RAG، إذا كنت تطرح سؤالاً على نموذج وفهم سؤالك ولكنه لا يملك البيانات اللازمة للإجابة على السؤال، فيجب عليه أن يفهمه. قد يكون السؤال عن الطقس أو أسعار الأسهم أو شيء من هذا القبيل. لذا، فهو يعرف كيفية الإجابة على أسعار الأسهم ويعرف أن مصدر الحقيقة لأسعار الأسهم هو بيانات SEC أو NASDAQ. ولكن من منظور مؤسسي، يمكن أن يكون رقم هاتف مكتب الدعم الفني في لاس فيجاس.
يجب أن تكون هذه معاملة سريعة جدًا. ولكن هل توجد هذه البيانات في مستند؟ هل توجد على موقع ويب؟ هل يتم تخزينها كخلية بيانات؟
يجب أن يكون قادرًا على العمل بسرعة فائقة، وبزمن انتقال منخفض للغاية. ولكن إذا كانت الإجابة أكثر تعقيدًا، فإن زمن الانتقال يتراكم لأنه يتعين عليه استرداد المستند وتحليله ثم إرساله مرة أخرى. إنها قطعة صغيرة من المعلومات، ولكن قد يكون لها زمن انتقال مرتفع. يمكن أن يكون لها طبقتان أو ثلاث طبقات من زمن الانتقال.
لهذا السبب، فإن عنصر زمن الانتظار بالنسبة إلى GenAI هو ما تتوقع الحصول عليه منه حقًا. هل أطرح سؤالاً معقدًا للغاية ولا بأس من الانتظار ثانية واحدة؟ هل أطرح شيئًا أعتقد أنه يجب أن يكون بسيطًا؟ إذا انتظرت لفترة طويلة جدًا، فسأتساءل، هل يعمل نموذج الذكاء الاصطناعي؟ هل أحتاج إلى النقر فوق “تحديث”؟ هذا النوع من الأشياء.
ثم هناك طريقة الذكاء الاصطناعي التي تتبعها والتي ترتبط بالزمن الذي تستغرقه الاستجابة. فإذا طرحت سؤالاً بصوتي وتوقعت إجابة صوتية، فيتعين عليه تفسير صوتي وتحويله إلى نص، ثم تحويله إلى استعلام، ثم العثور على المعلومات، ثم تحويل هذه المعلومات مرة أخرى إلى نص، ثم تحويل النص إلى كلام لي. وإذا كانت الإجابة قصيرة، مثل “ما درجة الحرارة في لاس فيغاس؟”، فلا أريد الانتظار نصف ثانية.
ولكن إذا طرحت سؤالاً أكثر تعقيداً أتوقع منه بضعة جمل، فقد أكون على استعداد للانتظار لمدة نصف ثانية حتى يبدأ في التحدث إلي. ثم يصبح السؤال هو ما إذا كان زمن الاستجابة لدي قادراً على مواكبة إرسال قدر كافٍ من النص إلى برنامج تحويل النص إلى كلام بحيث يبدو وكأنه إجابة طبيعية.
Adshead: ما هو الفرق من حيث تخزين الإدخال/الإخراج بين التدريب والاستدلال؟
بويل:إذا كنت تقوم ببناء نظام تخزين جديد، فإنهما متشابهان للغاية. إذا كنت تقوم بإنشاء نظام تدريب الذكاء الاصطناعي، فأنت بحاجة إلى جهاز تخزين سريع وحديث أو نظام ما. أنت بحاجة إلى إنتاجية عالية وزمن انتقال منخفض وكفاءة عالية في استخدام الطاقة.
من ناحية الاستدلال، تحتاج إلى نفس البنية للجزء الأول من الاستدلال. ولكنك تحتاج أيضًا إلى التأكد من الاتصال بسرعة بمخازن بيانات مؤسستك لتتمكن من استرداد تلك القطعة من المعلومات.
إذن، هل هذا التخزين سريع بما فيه الكفاية؟ والأمر الأكثر أهمية هو هل هذا التخزين متصل بسرعة كافية؟ لأن هذا التخزين قد يكون متصلاً بسرعة كبيرة بأقرب نظام تكنولوجيا معلومات إليه، ولكن قد يكون في مركز بيانات مختلف، ولون مختلف عن نظام الاستدلال الخاص بي.
قد يقول أحد العملاء “لقد حصلت على أسرع مساحة تخزين هنا، واشتريت أسرع مساحة تخزين لنظام الذكاء الاصطناعي الخاص بي”. ثم يدركون أنهم في مبنيين مختلفين وأن قسم تكنولوجيا المعلومات لديه خط اتصال واحد بينهما يقوم أيضًا بـ Exchange وكل شيء آخر.
لذا، فإن الشبكة مهمة تقريبًا بقدر أهمية التخزين للتأكد من أنك مصمم، وأنك تستطيع الحصول على المعلومات بالفعل. وقد يعني هذا نقل البيانات، ونسخ البيانات، والاستثمار في التقنيات الجديدة، ولكن أيضًا الاستثمار في التأكد من وجود الشبكة.