التكلفة العالية الخفية لتدريب الذكاء الاصطناعي على الذكاء الاصطناعي

تقع نماذج الذكاء الاصطناعي اليوم ضحية لثغرة أمنية خطيرة: تسمم البيانات. لكن أزمة تسمم البيانات لا يحدث فقط – أو حتى في الغالب – بواسطة المتسللين أو الخصوم. انها ذاتية. بينما تتسابق المؤسسات لنشر الذكاء الاصطناعي عبر مسارات العمل، فإنها تقوم بهدوء وسرعة بإغراق قواعد بياناتها الداخلية بالملخصات ورسائل البريد الإلكتروني والأكواد والتقارير التي تم إنشاؤها بواسطة الذكاء الاصطناعي. يحدث تسمم البيانات عندما يتم استيعاب المحتوى الاصطناعي مرة أخرى في خطوط التدريب المستخدمة لبناء وضبط الجيل القادم من نماذج الذكاء الاصطناعي للمؤسسات.
بالنسبة للعديد من المؤسسات، فإن تحول الذكاء الاصطناعي الذي استثمروا فيه يؤدي الآن إلى تفكيك مستقبل الذكاء الاصطناعي الذي يعتمدون عليه.
وقال دانييل كيمبر، الرئيس التنفيذي لشركة Brainfish AI، وهي شركة ناشئة في مجال التكنولوجيا تأسست في أستراليا وتركز على بناء عملاء الذكاء الاصطناعي: “ما يحدث هو أن نسبة الإشارة إلى الضوضاء تنهار”. “يتم تخفيف المنطق البشري الأصلي والمعرفة المتطورة والسياق المؤسسي الدقيق من خلال المحتوى الاصطناعي الذي كان بالفعل مجردًا لشيء حقيقي. عندما تقوم بالتدريب أو الضبط الدقيق لهذه البيانات، فإنك لا تتعلم من التجربة، بل تتعلم من نسخة من نسخة.”
النتيجة النهائية لتسميم البيانات هي خطر قد يكون العديد من مديري تكنولوجيا المعلومات على علم به بالفعل: تدهور النموذج. ومع ذلك، فإن تقليص المشكلة إلى مجرد “تدهور النموذج” يمكن أن يخفي ما هو على المحك حقًا – نتائج الأعمال. تدهور النموذج يمكن أن يؤدي إلى تدهور القرار، والذي يحدث عندما تعتمد القرارات – التي تتخذها الآلات أو البشر – على تحليلات أو مخرجات مشوهة من الذكاء الاصطناعي.
قال زبينيك سوبوتش، كبير مسؤولي التكنولوجيا في شركة Safetica، وهي شركة تقدم خدمات منع فقدان البيانات وإدارة المخاطر الداخلية: “إن فقدان الدقة هو أكثر من مجرد تدهور – إنه تشويه. لا تظهر المشكلات عادةً بشكل خطي ولكنها بدلاً من ذلك تتفاقم بهدوء وتفشل معًا”. “يؤدي فقدان الدقة وحلقات التغذية الراجعة إلى تدهور القرار على نطاق واسع. وهذا يعني أنك انتقلت من مشكلة نموذجية إلى مشكلة عمل.”
يمكن أن يؤدي تسميم البيانات أيضًا إلى مجموعة متنوعة مذهلة من المشاكل المتعلقة بالمعارف القانونية والامتثالية والمؤسسية. إن تدهور البيانات الذي يسببه لا رجعة فيه، وفقًا لدراسة نموذجية للذكاء الاصطناعي نُشرت في عام 2019 Nature.com في عام 2024. ليس هذا فحسب، بل إنه يؤدي أيضًا إلى تسطيح “المعرفة المؤسسية الدقيقة والنادرة في ذيل توزيع البيانات الخاصة بك” في هذه العملية، وفقًا لدان إيفتسان، المدير الأول لمنتجات الذكاء الاصطناعي في شركة Steno، وهي شركة تقدم خدمات مراسلي المحكمة ودعم التقاضي المدعومة بالتكنولوجيا.
وأضاف: “الجزء الخبيث هو أن الطلاقة تستمر بينما تنهار الدقة الواقعية، لذا فإن المعايير القياسية تفتقدها تمامًا”.
وبعيدًا عن فقدان الدقة، يمكن أن تواجه المؤسسات تضخيم التحيز بسبب عوامل مثل اختفاء مخرجات البيانات الخاصة بمجموعات الأقليات وتجانس المخرجات، مما يعني تقارب المخرجات نحو متوسط لطيف.
قال إيفتسان: “في الذكاء الاصطناعي القانوني، حيث أقوم ببناء المنتجات، يمكن أن يعني هذا الانجراف استشهادات هلوسة أو جداول زمنية طبية غير صحيحة. وهذا كشف حقيقي عن سوء الممارسة”. “المنع المثبت: قم دائمًا بتجميع البيانات الحقيقية جنبًا إلى جنب مع البيانات الاصطناعية. لا تستبدلها أبدًا.”
وجهات نظر الخبراء حول تدهور نموذج الذكاء الاصطناعي
مخاطر حلقات التغذية المرتدة المتقيأة
أوضح ريوجي موري، مؤسس شركة Insynergy.io ومقرها طوكيو، وهي شركة متخصصة في حوكمة الذكاء الاصطناعي وهندسة اتخاذ القرار في الذكاء الاصطناعي، أن تسميم البيانات يقلل من قيمة البيانات الأصلية. وقال موري: “يتم التعامل مع البيانات كمورد يمكن التخلص منه، ويتم استخدام القيم المشتقة بدلا من ذلك. وهذا يلوث بيانات التدريب ويجعل البيانات الأولية أقل أهمية”.
يمكنك إلقاء اللوم على المشكلة في حاجة الشركات إلى السرعة، أو الغريزة البشرية للوصول إلى ما هو أسهل، أو ببساطة سوء فهم لكيفية عمل التدريب والضبط الدقيق للذكاء الاصطناعي. بغض النظر عن السبب أو القصد، فإن الضرر لا يمكن إنكاره.
“ما يتم وصفه هو” تسميم البيانات باسم الملاءمة “. وقال سوبوتش: “إنها ليست ضارة، ولكنها ستؤدي إلى أضرار طويلة المدى”.
إن إلقاء اللوم لا يهم بقدر أهمية القدرة على إدراك الخطر الآن.
قال شيتان سوندانكار، الرئيس التنفيذي لشركة Coditation ومقرها الهند، وهي شركة تقوم ببناء ونشر أنظمة الذكاء الاصطناعي لعملاء المؤسسات: “في المراحل المبكرة، غالبًا ما لن تتمكن من إدراك الأمر: تبدو المخرجات جيدة، ويتم اجتياز ضمان الجودة أيضًا”. لكن هذا هو الهدوء الذي يسبق العاصفة.
وقال: “بعد أسابيع أو أشهر، يبدأ النموذج في فهم الأمور بشكل خاطئ بطرق يصعب اكتشافها لأن الإجابات لا تزال تبدو معقولة تمامًا”. “تبدأ أداة التعليمات البرمجية في اقتراح أنماط فعالة ولكنها تحتوي على ثغرات أمنية. ويبدأ نموذج التلخيص في إسقاط المؤهلات والفروق الدقيقة التي جعلت المستندات الأصلية مفيدة، بينما لا تزال تبدو موثوقة.”
تتسرب المشاكل إلى كل ما هو مهم لإدارة مؤسسة ناجحة ومربحة. أوضح ديرك ألشوث، كبير مسؤولي التسويق في Emma، وهي منصة لإدارة السحابة مقرها في لوكسمبورغ، أن الأخطاء الصغيرة، مثل سوء تقدير تخصيص الموارد أو سوء تصنيف أنماط الاستخدام، يمكن أن تتضاعف بسرعة. وفي نهاية المطاف، تؤدي هذه الأخطاء إلى زيادة التكاليف أو تؤدي إلى انخفاض الأداء بمرور الوقت. وأضاف: “إن حلقة ردود الفعل تزيد الأمر سوءًا لأنه يمكن تسجيل نفس هذه المخرجات المعيبة وإعادة استخدامها، مما يعزز الخطأ”.
في البيئات السحابية والبنية التحتية على سبيل المثال، يمكن لأخطاء صغيرة مثل تقديم توصيات خاطئة قليلاً من سوء الحكم على تخصيص الموارد أو تسمية أنماط الاستخدام الخاطئة أن تؤدي بهدوء إلى زيادة التكاليف أو تقليل الأداء بمرور الوقت. يمكن أن يكون لهذا تأثير كبير محتمل على الأعمال.
هناك مشكلة أخرى قال إنه لاحظها وهي فقدان القدرة على التكيف. وقال: “يميل الذكاء الاصطناعي المُدرب على الذكاء الاصطناعي إلى النضال عندما يحدث شيء جديد أو غير متوقع، لأنه لم يشهد تقلبًا حقيقيًا”.
وأضاف الشوث: “إن أفضل وسيلة للوقاية هي إبقاء بيانات التدريب الخاصة بك مرتبطة بسلوك النظام الحقيقي. استخدم القياس المباشر عن بعد والسجلات والقرارات التي يراجعها الإنسان كمصدر للحقيقة، وتعامل مع المخرجات التي يولدها الذكاء الاصطناعي على أنها مؤقتة وليست أساسية”.
انهيار وشيك للنموذج
يجب أن يدرك مدراء تقنية المعلومات أن مشكلة تسمم البيانات لا تنتهي عند تدهور النموذج. يمكن أن يؤدي التدريب على المحتوى الناتج عن الذكاء الاصطناعي إلى “انهيار النموذج”، حيث تفشل أنظمة الذكاء الاصطناعي في النهاية وبشكل كامل. في الواقع، فهو يقلل من استثمارات الذكاء الاصطناعي إلى خسارة في التلف – تحدث الخسارة عندما تصبح المشاريع عديمة الفائدة بعد نقطة الإصلاح، نظرًا لتدهور النموذج والبيانات والمخرجات.
وأوضح أن “انهيار النموذج يشير إلى التدهور الذي يحدث عندما يتم تدريب النماذج بشكل متكرر على مخرجات من نماذج أخرى. وبمرور الوقت، يصبح النظام أكثر تكرارًا، وأقل دقة، وأقل تمثيلاً للعالم الحقيقي”. أولي أوسترتاج، رئيس منصات النمو والذكاء الاصطناعي في شركة PAR Technology، وهي مزود منصة تجارية موحدة للمطاعم والمتاجر الصغيرة وتجار الوقود بالتجزئة.
حتى لو كانت المؤسسات تقوم بنشر حلول الذكاء الاصطناعي الخاصة بالموردين في مؤسستها، فقد لا يزال الانهيار ينشأ بالقرب من المنزل. “إن الحديث حول تلوث بيانات الذكاء الاصطناعي يميل إلى التركيز على التدريب على النماذج الأساسية، [meaning] قال كيمبر: “ما تدرب عليه OpenAI أو Google”. “لكن المشكلة الأكثر إلحاحًا بالنسبة لمعظم المؤسسات هي حدوث طبقة واحدة في البنية التحتية المعرفية الخاصة بها. أصبحت كل شركة الآن، من الناحية الوظيفية، بمثابة مدرب نموذجي.”
إنقاذ النموذج وبناء الحماية
الخطوة الأولى في تصحيح مشكلة تسمم البيانات هي منعها من التفاقم. ولحسن الحظ، هناك طريقة لإنقاذ الأداء عند انهيار النموذج أو بعده، على الرغم من أن ذلك يتطلب جهدًا كبيرًا. وقال إيفتسان إن الوقاية هي الأفضل دائمًا، ولكن في حالة حدوث انهيار، فإن الحل هو إعادة التدريب على البيانات النظيفة لاستعادة الأداء.
يمكن تجنب الانهيار إذا تراكمت البيانات الحقيقية جنبًا إلى جنب مع البيانات الاصطناعية، بدلاً من استبدالها بها، وفقًا لما ذكره أ ورق بواسطة غيرستجراسر وآخرون. حتى التحقق الخارجي غير الكامل يمكن أن يؤدي إلى استقرار المسار، وفقًا لما قاله ورقة أخرى بواسطة يي وآخرون.
في هذا السياق، لا يعني التحقق الخارجي “غير الكامل” استخدام مصادر التحقق أو المعلومات التي قد تكون معيبة أو غير صحيحة. ويعني استخدام أساليب مثل عمليات التفتيش المفاجئة، أو مراجعة الخبراء للموضوع، أو الحكم البشري القائم على الخبرة، والتي لا تمثل فحصًا شاملاً للحقائق في حد ذاتها، ولكن من المرجح أن تكون دقيقة للغاية. وعلى نطاق واسع، يتفوق التحقق المستهدف على انعدام الرقابة وعدم عملية التحقق الشامل من الحقائق.
أفضل مسار للعمل، إن أمكن، هو منع حدوث ذلك.
وأوضح كار ويسنايس، رئيس قسم الابتكار في شركة أوجيلفي أمريكا الشمالية، وهي الوكالة المسؤولة عن بناء العلامات التجارية لشركات فورتشن جلوبال 500 حول العالم، أن “طريقة منع ذلك هي تصميم حلقات ردود فعل بين الإنسان والآلة. أقوى الأنظمة هي التكرارية، من الإنسان إلى الذكاء الاصطناعي، ومن الذكاء الاصطناعي إلى الإنسان، حيث يتم تشكيل المخرجات وتحديها وتحسينها بشكل مستمر”.
باختصار، يقول ويسنيس: “إن أقوى الأنظمة ليست مخصصة للذكاء الاصطناعي فحسب، بل إنها عبارة عن حلقات بين الإنسان والآلة”.
الفكرة الأساسية هي أن نتذكر أن جودة الذكاء الاصطناعي لا تقل جودة عن البيانات الموجودة فيه، وأن نتصرف وفقًا لذلك.
وقال ويسنيس: “تحتاج الشركات إلى حماية سلامة بياناتها. وهذا يعني إعطاء الأولوية للمدخلات عالية الجودة التي يولدها الإنسان، والفصل بوضوح بين البيانات الاصطناعية والبيانات الحقيقية، وإعادة تقديم إشارات جديدة وحقيقية بشكل مستمر في أنظمتها”.


