هل البيانات الاصطناعية هي مستقبل التدريب على نماذج الذكاء الاصطناعي؟
إن الذكاء الاصطناعي والتعلم الآلي مفترسان، والبيانات فقط هي التي يمكن أن تغذي شهيتهم. نحن ننتج بيانات أكثر من أي وقت مضى، ولكن ما هو متاح لتدريب نماذج اللغات الكبيرة (LLMs) ليس موردًا غير محدود. يقدر معهد الأبحاث Epoch AI أن LLMs سيتم تشغيلها من خلال البيانات العامة التي أنشأها الإنسان في وقت ما بين 2026 و 2032.
ونظراً للأموال التي تم ضخها في مجال الذكاء الاصطناعي، فمن الصعب أن ينتظر أصحاب المصلحة لمعرفة ما سيحدث إذا ثبت أن هذا التقدير دقيق. يشير عصر الذكاء الاصطناعي إلى البيانات الاصطناعية باعتبارها ابتكارًا محتملاً يمكنه حل هذه المشكلة.
“إحدى طرق وصف ذلك هي أنها بيانات لا تملكها ولكنك تتمنى لو كنت تمتلكها،” كريس هازارد، دكتوراه، مؤسس مشارك و CTO كيف، منصة ذكاء اصطناعي مفهومة، تقول InformationWeek.
يتم إنشاء بيانات العالم الحقيقي من قبل الأشخاص والأحداث الفعلية، في حين يتم إنشاء البيانات الاصطناعية بواسطة أجهزة الكمبيوتر. كانت البيانات الاصطناعية موجودة قبل فترة طويلة من طفرة الذكاء الاصطناعي الأخيرة، لكن GenAI تجعل إنشاءها أسهل من أي وقت مضى.
يستفيد اللاعبون الرئيسيون في مجال الذكاء الاصطناعي من البيانات الاصطناعية. ميتا لها مقيم ذاتي التعلم. وقد وصفت جوجل نهجها ل توليد بيانات التدريب الاصطناعية الخاصة. صدرت نفيديا عائلة من النماذج المفتوحة يمكن للمستخدمين الاستفادة منها لإنشاء بيانات تركيبية لتدريب LLMs.
ما هي فوائد ومخاطر البيانات الاصطناعية؟ كيف يمكن أن يبدو مستقبلها في مجال الذكاء الاصطناعي؟
فوائد البيانات الاصطناعية
إن جمع وإدارة بيانات العالم الحقيقي أمر مكلف. تحتاج الشركات إلى إجراء هذه العملية المكلفة بنفسها أو شراء مجموعات البيانات من بائع خارجي. بفضل إمكانيات GenAI، يمكن للشركات الآن الاستفادة من مجموعات البيانات الحالية لإنشاء اختلافات تركيبية غنية.
“يمكن أن يساعد أيضًا في هذه العملية اليدوية للدخول إلى البيانات وتصنيفها،” كما يقول كجيل كارلسون، رئيس استراتيجية الذكاء الاصطناعي في منصة الذكاء الاصطناعي للمؤسسات. مختبر بيانات الدومينويشرح. “غالبًا ما تحتاج إلى أشخاص موهوبين ومكلفين للغاية… ليقوموا بذلك. يمكنك الآن تفريغ الكثير من هذا العمل في هذه النماذج والقيام بذلك بفعالية إن لم يكن مجانًا، وبتكلفة زهيدة جدًا.
يمكن أن تساعد البيانات الاصطناعية أيضًا مستخدمي نماذج الذكاء الاصطناعي على تجنب حقل ألغام محتمل: التحيز.
يقول إريك براون، الشريك الرئيسي في شركة الخدمات الرقمية: “كل نماذج الذكاء الاصطناعي التوليدية أو روبوتات الذكاء الاصطناعي التي تميل إلى قول أشياء عنصرية أو حقائق كاذبة هلوسة، يمكننا في الواقع استخدام البيانات الاصطناعية لمعالجة هذه المشكلة”. غرب مونرو. “يمكننا إزالة انحياز البيانات الفعلية من بيانات التدريب النموذجية.”
إن عملية جمع واستخدام بيانات العالم الحقيقي لتدريب نماذج الذكاء الاصطناعي مليئة أيضًا بمخاوف تتعلق بالخصوصية. يمكن للبيانات الاصطناعية إنشاء تمثيلات لبيانات الأفراد دون الكشف عن المعلومات الشخصية لأشخاص حقيقيين.
يمكن للبيانات الاصطناعية أيضًا أن توفر للشركات بعض الحماية القانونية عند تدريب حاملي شهادة الماجستير في القانون. يعد استخدام المواد المحمية بحقوق الطبع والنشر للتدريب على نماذج الذكاء الاصطناعي أمرًا مثيرًا للجدل إلى حد كبير، وهو أمر يتم التنازع عليه في المحكمة. في إحدى الحالات البارزة، صحيفة نيويورك تايمز تقاضي OpenAI ومايكروسوفت على استخدام المواد المحمية بحقوق الطبع والنشر.
إن نتيجة هذه الدعوى القضائية ليست مؤكدة، ولكن من الممكن أن تحتاج الشركات إلى ترخيص مواد محمية بحقوق الطبع والنشر لتدريب حاملي شهادة الماجستير في القانون، مما يضيف المزيد من القيود والنفقات على استخدامهم للبيانات. يمكن أن تكون البيانات الاصطناعية خيارًا جذابًا وأقل تكلفة مع مخاطر قانونية أقل.
يقول جيفري لوتنبرغ، الشريك: “إذا بدأنا بفكرة أن البيانات الاصطناعية يتم إنشاؤها بواسطة آلة، فإن فكرة تدريب نظام ذكاء اصطناعي ثانوي باستخدام البيانات الاصطناعية، فإن المعنى الضمني هو أن ذلك لن ينتهك حقوق الطبع والنشر الخاصة بأي شخص أو حقوق الملكية الفكرية الأخرى”. وقائد مجموعة الملكية الفكرية والتكنولوجيا في شركة محاماة الأعمال بيرجر سينجرمان.
في حين أن ماجستير إدارة الأعمال واحتياجاتها من البيانات تبرز بشكل بارز في المناقشات المتعلقة بمجال الذكاء الاصطناعي، فإن البيانات الاصطناعية يمكن أن تكون أيضًا أداة مفيدة لتدريب نماذج أصغر وأكثر تخصصًا.
يمكن للمؤسسات الاستفادة من حاملي شهادات الماجستير الأكبر حجمًا لإنشاء إصدارات تركيبية من مجموعات البيانات الخاصة بها، والتي يمكن استخدامها بعد ذلك لتدريب نماذج الذكاء الاصطناعي المتخصصة الأصغر حجمًا.
“سأستخدم أحد تلك النماذج الأكبر حجمًا للدخول وإنشاء إصدارات تركيبية من مجموعة البيانات الصغيرة الخاصة بي ثم استخدام مجموعة البيانات التركيبية تلك، والتي أصبحت الآن أكبر بكثير ولكنها تعتمد على بياناتي الخاصة لتدريب هذه المجموعة الأصغر المتخصصة … التوليدية يقول كارلسون: “نموذج الذكاء الاصطناعي”.
ويضيف أن هذا النهج “… سيكون أرخص، وأسرع، وأكثر دقة في منطقتي”.
المخاطر
إن إدراك فوائد البيانات الاصطناعية ليس أمرا مفروغا منه. لا يزال يتعين على المستخدمين الاهتمام بجودة البيانات التي يستخدمونها.
“المصدر ويقول هازارد: “بدأت النسب في أن تصبح مهمة لأننا مع تقدمنا في استخدام الذكاء الاصطناعي في كل مكان، عليك أن تعرف جودة البيانات الواردة حتى تتمكن من الوثوق في المخرجات”. تحتاج الشركات إلى معرفة من أين تأتي البيانات وكيف تم تحويلها بعد استهلاكها بواسطة أنظمة ونماذج مختلفة.
إذا كان مستخدمو نموذج الذكاء الاصطناعي لا يعرفون تلك المعلومات، فلن يتمكنوا من التأكد من جودة البيانات. وهنا تبدأ المشاكل. يمكن للبيانات الاصطناعية أن تحل مشكلات مثل التحيز والخصوصية، ولكنها يمكن أن تؤدي أيضًا إلى تفاقمها.
“لا يمكنك التخلص على الفور من مخاطر الخصوصية عند استخدام البيانات الاصطناعية. يحذر كارلسون: “أنت بحاجة إلى معرفة ما تفعله، وتحتاج إلى اختبار مجموعات البيانات التي تقوم بإنشائها والتحقق من صحتها”. “إذا كانت بياناتك متحيزة بالفعل [and] أنت تقوم بإنشاء نسخة اصطناعية من ذلك، ويمكنك بشكل فعال تضخيم التحيزات في بياناتك.
البيانات الاصطناعية لا تمحو تمامًا أي احتمال للمخاطر القانونية أيضًا. تعرض انتهاكات الخصوصية الشركات لمخاطر قانونية، كما هو الحال مع استخدام المواد المحمية بحقوق الطبع والنشر.
“من أين تأتي هذه البيانات الاصطناعية؟ هل نحن متأكدون من أنه تم إنشاؤه بواسطة الآلة فقط؟” يسأل لوتنبرغ.
قد يتمكن صاحب حقوق الملكية الفكرية من مناقشة الانتهاك إذا قرر أن البيانات الاصطناعية تحتوي بطريقة أو بأخرى على مواد محمية بحقوق الطبع والنشر.
وكما هو الحال مع نموذج الذكاء الاصطناعي، سواء كانت البيانات الاصطناعية مدربة أم لا، فإن الطريقة التي يتم بها استخدام النتائج في العالم الحقيقي لها آثار قانونية محتملة.
ويشير لوتنبرغ إلى أنه “إذا تم إنشاء نظام ذكاء اصطناعي بناءً على بيانات تركيبية، ونتيجة للتدريب، فإنه لا يمكن الاعتماد عليه بالكامل ويتم اتخاذ قرار كبير من نوع ما، فقد تكون هناك مسؤولية عن أي عدد من الانتهاكات القانونية الأخرى”.
أحد المخاطر الأكثر إثارة للاهتمام المرتبطة باستخدام البيانات الاصطناعية هو انهيار النموذج. إذا تم تدريب نماذج الذكاء الاصطناعي بشكل مستمر على البيانات التي أنشأها الذكاء الاصطناعي، فمن المحتمل أن تصبح أقل موثوقية. إن دورة نماذج الذكاء الاصطناعي التي تستوعب فقط المحتوى الذي أنشأه الذكاء الاصطناعي تستحضر صورًا لثعبان يلتهم ذيله. في هذه الحالة، سيستمر الثعبان في التهام الطعام حتى لا يلفظ إلا رطانة.
أ دراسة نشرت في الطبيعة وجد أن “… الاستخدام العشوائي للمحتوى الناتج عن النموذج في التدريب يسبب عيوبًا لا رجعة فيها في النماذج الناتجة، حيث تختفي ذيول توزيع المحتوى الأصلي.”
إن انهيار النموذج الموصوف في هذه الدراسة هو موضوع للنقاش. ويقول البعض إنها نتيجة محتملة. ويقول آخرون إن القلق مبالغ فيه.
“أنت… تفترض حدوث السيناريو الأسوأ لانهيار النموذج. يقول كارلسون: “هذا لا يعني أن هذا لن يحدث”. “نحن بشر. نحن نأخذ الاختصارات. سيكون هناك أشخاص يقومون بتدريب النماذج على البيانات دون الدخول والتأكد من جودة تلك البيانات، وسوف ينتهي بنا الأمر إلى إنشاء نماذج سيئة كجزء من ذلك.
وستكون إدارة البيانات ضرورية لمنع انهيار النموذج.
يؤكد براون أن “الأمر… يتعلق بقدرة البشر على استخدام الأنظمة والضوابط والتوازنات المناسبة للحفاظ على الجودة وإدارة البيانات”. “إذا فعلنا ذلك بشكل صحيح، أعتقد أن استخدام البيانات الاصطناعية في المستقبل يقلل من المخاطر ويحسن الجودة بمرور الوقت، والإفراط في استخدام مجموعات البيانات غير الكاملة المختلفة الموجودة لدينا في الواقع اليوم.”
البيانات الاصطناعية ومستقبل نماذج الذكاء الاصطناعي
من المحتمل أن يزداد استخدام البيانات الاصطناعية في مجال الذكاء الاصطناعي. وتتوقع جارتنر أن يحدث ذلك تفوق استخدام البيانات الحقيقية في نماذج الذكاء الاصطناعي بحلول عام 2030.
“سوف ينمو استخدامه بمرور الوقت، وإذا تم القيام به بشكل صحيح، [it will] “تسمح لنا بإنشاء نماذج أكثر تطورًا وقوة وعددًا أكبر لإعلام البرنامج الذي نقوم ببنائه” ، كما يتوقع براون.
ويبدو هذا المستقبل المحتمل مشرقا، ولكن الطريق إلى هناك من المرجح أن يكون مليئا بمنحنى للتعلم.
“من المؤكد تقريبًا أنه سيتم ارتكاب أخطاء في استخدام البيانات الاصطناعية في البداية. يقول براون: “سوف تنسى أحد المقاييس الرئيسية التي من شأنها أن تحكم على جودة البيانات”. “سوف تقوم بتنفيذ نموذج متحيز من نوع ما أو نموذج قد يسبب الهلوسة أكثر مما فعله النموذج السابق.”
قد تكون الأخطاء حتمية، ولكن ستكون هناك طرق جديدة لمكافحتها. ومع استخدام مقاييس البيانات الاصطناعية، فإن تطوير أدوات لإجراء فحوصات قوية للجودة سوف يحتاج إلى ذلك أيضًا.
“تمامًا بنفس الطريقة التي حافظنا بها على جودة الطعام العالية، فإننا [need to] يقول هازارد: “افعل الشيء نفسه للحفاظ على جودة النموذج عالية”.
من الممكن أيضًا أن يتأثر استخدام البيانات الاصطناعية بتصحيح سوق GenAI. مثل تصادم التوقعات والواقعومع ذلك، قد يتباطأ اعتماد البيانات الاصطناعية لبعض الوقت، حيث تكتشف الشركات كيفية وضع حالات الاستخدام القيمة الفعلية موضع التنفيذ.
“سيكون الطريق وعرًا بعض الشيء بالنسبة للأشخاص الذين [are] ويتوقع كارلسون أن نستثمر في البيانات الاصطناعية قبل أن نصل إلى اعتمادها على نطاق أوسع.
إذا أصبحت البيانات الاصطناعية هي مستقبل التدريب على نماذج الذكاء الاصطناعي، فأين ستترك بيانات العالم الحقيقي؟ كيف يمكن للمؤسسات التحدث عن استخدام نوع واحد أو كلا النوعين من البيانات؟
“لا ينبغي أبدًا أن يكون الأمر واحدًا ويتم تنفيذه،” عظيم، لقد قمت الآن بإنشاء نسخة اصطناعية من هذا.” لقد انتهيت، ولن أقوم أبدًا بجمع أي بيانات من العالم الحقيقي مرة أخرى. «سيكون ذلك فظيعًا؛ لا تفعل ذلك. يجب أن تكون عملية جمع بيانات مستمرة والتحقق المستمر من صحة مجموعات البيانات الخاصة بك مقارنة ببيانات العالم الحقيقي الموجودة في الحالة المثالية.
سيعتمد الاختيار بين البيانات الاصطناعية وبيانات العالم الحقيقي، أو مزيج من الاثنين معًا، على حالة الاستخدام. يمكن لقادة المؤسسات اتخاذ هذا القرار من خلال النظر في بعض العوامل المختلفة. يوصي براون: “انظر إلى… كمية البيانات، وجودتها، وسرية تلك البيانات، واستخدم ذلك كنطاق لتحديد مدى اعتمادك على البيانات الاصطناعية في حالات مختلفة”.