الغطس في البيانات الاصطناعية
فبدلاً من أن يتم إنشاؤها بواسطة أنشطة العالم الحقيقي، مثل البيانات التقليدية، تكون البيانات الاصطناعية مصطنعة تمامًا. يتم استخدام البيانات الاصطناعية، التي تم إنشاؤها خوارزميًا، بشكل متكرر كبديل في مجموعات بيانات الاختبار، وكذلك للتحقق من صحة النماذج الرياضية وتدريب نماذج الذكاء الاصطناعي والتعلم الآلي.
يقول فيفيكا بافون هار، كبير مسؤولي البيانات في شركة Accenture Federal Services، في مقابلة عبر البريد الإلكتروني، إن إنشاء البيانات الاصطناعية غير مكلف نسبيًا، ويمكن الوصول إليها بسهولة، وتسمح بالاختبار دون أي مخاوف تتعلق بالتأثير البشري. يمكن للبيانات الاصطناعية أيضًا أن تسهل اختبار النماذج وتقييماتها بشكل أسرع، واعتمادًا على نوع العمل الذي تقوم به المنظمة، يمكن أن تسمح بالحصول على البيانات وتوثيق البيانات بشكل أسرع.
تحظى البيانات الاصطناعية بتقدير كبير لقدرتها على إنشاء مجموعات بيانات متوازنة وغير متحيزة، وهو ما يمثل تحديًا كبيرًا في التعلم الآلي، كما يلاحظ وودي تشو، الأستاذ المساعد في تحليلات البيانات في كلية هاينز لنظم المعلومات والسياسة العامة بجامعة كارنيجي ميلون، عبر البريد الإلكتروني. ويوضح قائلاً: “من خلال محاكاة البيانات، يمكننا معالجة قضايا التحيز والعدالة، لا سيما في المجالات عالية المخاطر مثل الرعاية الصحية، وأنظمة الطاقة، والتمويل، والتعليم”. “وهذا يؤدي إلى تطوير نماذج تعلم آلي أكثر جدارة بالثقة وشمولية.”
فوائد عديدة
تقول أولغا كوبريانوفا، المستشارة الرئيسية في شركة أبحاث التكنولوجيا العالمية والاستشارات ISG عبر البريد الإلكتروني، إنه من الصعب في كثير من الأحيان الحصول على درجة عالية من الدقة عندما يكون توفر البيانات محدودًا. وتوضح قائلة: “يمكن للمؤسسات الاستفادة من البيانات الاصطناعية لتدريب النماذج التي لولا ذلك لم تكن لتصل إلى مستويات الأداء الضرورية”.
ربما تكون حالة استخدام البيانات الاصطناعية الأكثر شيوعًا هي اكتشاف الاحتيال. تقول كوبريانوفا: “إن الأحداث الاحتيالية نادرة، ولكن تحتاج النماذج إلى التدريب على اكتشافها”. “إن أفضل طريقة للقيام بذلك هي إنشاء بيانات الأحداث الاصطناعية لتوسيع فرص التدريب.”
تتألق البيانات الاصطناعية عندما تكون البيانات الحقيقية نادرة أو حساسة أو محفوفة بالمخاطر للغاية. يقول تشو: “في السيناريوهات التي يكون فيها جمع بيانات وافرة ومتنوعة أمرًا مستحيلًا، أو يمثل تحديًا، أو غير أخلاقي، يتم استخدام البيانات الاصطناعية كبديل موثوق”. “إنه يسمح للمؤسسات بنمذجة المواقف المعقدة دون المساس بالخصوصية أو السلامة.”
تصبح البيانات الاصطناعية سهلة المنال وغير مكلفة عند إنشاء الذكاء الاصطناعي التوليدي. ويشير بافون-هار إلى أن “البيانات لا يتم إنشاؤها بسهولة فحسب، بل يمكن أيضًا أن تحتوي على تعليقات توضيحية مضمنة بالفعل”. “وهذا يمثل فائدة كبيرة للمؤسسات، نظرًا لأنه يقلل من المهمة كثيفة العمالة المتمثلة في مراجعة البيانات وتحديد الميزات والبيانات الوصفية.”
وهناك فائدة أخرى تتمثل في إمكانية إنشاء البيانات بطريقة تزيل أو تحد من التحيزات ونقاط الضعف. يمكن أن تساعد هذه السمة في تقليل إنشاء معلومات غير مقصودة أو معلومات قد لا تمثل مجموعة معينة حقًا. “إذا فكرنا في المجال الطبي، على سبيل المثال، فإن استخدام معلومات المريض يمكن أن ينتهك مخاوف الخصوصية”، كما يلاحظ بافون هار. باستخدام البيانات الاصطناعية، يمكن إزالة المعلومات الخاصة بالأفراد بالكامل. “وهذا يوفر فرصًا عظيمة للبحث وبناء السيناريوهات دون الكشف عن أحداث أو عواقب سلبية.”
أي محتوى تم إنشاؤه بواسطة النموذج، سواء كان تنبؤًا أو مجموعة من المتغيرات أو المخرجات الاصطناعية، يمكن أن يخضع للتحيز أو المحتوى غير الدقيق. تقول كوبريانوفا: “يمثل هذا خطرًا على البيانات الاصطناعية بشكل خاص، والتي ترتبط بطبيعتها بالقواعد التي وضعها لها صانع النموذج”. “من المهم أن نتذكر أن البيانات الاصطناعية تولد البيانات بشكل فعال عبر قدرات الذكاء الاصطناعي التوليدية، مما يعني أنها يمكن أن تهذي عندما تعطى التوجيه لإنشاء شيء ليس لديها سياق كاف له.” بمعنى آخر، جميع المخاطر المرتبطة بالذكاء الاصطناعي التوليدي موجودة أيضًا بالنسبة للبيانات الاصطناعية.
ابدء
ينبغي أن تكون مبادرات البيانات الاصطناعية مدفوعة بالحاجة. تقول كوبريانوفا: “إذا كانت لديك حالة استخدام تجاري تتطلب حلاً للذكاء الاصطناعي، ولكن لا يمكنك الحصول على بيانات كافية لتوليد النوع الصحيح من السلوك، فقد حان الوقت للنظر في طرق تحسين النموذج”. “أحد خياراتك سيكون البيانات الاصطناعية.”
على الجانب السلبي، إذا لم يتم تطوير البيانات الاصطناعية بشكل صحيح، فلن تعمل النماذج الناتجة كما هو متوقع. يقول بافون-هار: “إذا لم تكن البيانات التي تم إنشاؤها تمثيلاً حقيقيًا لما يتم تقييمه، فلن تتقارب النماذج”.
يحذر تشو من أن بدء العمل باستخدام البيانات الاصطناعية يتطلب أساسًا في البيانات الحقيقية عالية الجودة أو معرفة كبيرة بالمجال.
فرصة
توفر البيانات الاصطناعية فرصة لدراسة منهجيات جديدة وغرس الإبداع في أساليب مختلفة للذكاء الاصطناعي دون تعريض البشر أو البيانات الحساسة للخطر. وينبغي استخدام البيانات الاصطناعية لتجسيد التجمعات البشرية، وتسريع فرص البحث، وإزالة التحيز كلما أمكن ذلك. يقول بافون هار: “يجب فحص جميع الافتراضات المعممة لضمان تضمين أكبر قدر ممكن من الحقيقة في البيانات، وليس فقط ما تم جمعه بسهولة”.
في حين أن البيانات الاصطناعية مفيدة للغاية، فمن المهم أن نكون حذرين من الاعتماد المفرط. يشرح تشو قائلاً: “هناك دائمًا خطر فقدان الفروق الدقيقة في العالم الحقيقي”. “إن ضمان الدقة في المحاكاة ومراعاة الاعتبارات الأخلاقية في تمثيل البيانات واستخدامها أمر أساسي.”