يعالج اختراق الذكاء الاصطناعي الذي حققه الباحث الهولندي مفارقة البيانات المنظمة

تجلس المنظمات على كميات هائلة من البيانات المنظمة في قواعد البيانات وجداول البيانات العلائقية. إنها منظمة وقابلة للبحث، ولكن عندما يتعلق الأمر باستخلاص الأفكار، فإننا بالكاد نخدش السطح.
يقول: “نحن لا نعرف ما لا نعرفه”. مادلون هولسيبوس، باحث في المركز الهولندي Wiskunde & Informatica (CWI)، المعهد الوطني للبحوث في الرياضيات وعلوم الكمبيوتر في هولندا.
بدأت هولسيبوس حياتها المهنية كعالمة بيانات، ولاحظت أن المتخصصين الذين يتقاضون أجورا عالية يؤدون نفس المهام اليدوية بشكل متكرر: تنظيف الجداول، واستخراج الميزات، وربط مجموعات البيانات.
أثناء حصولها على درجة الدكتوراه في جامعة أمستردام وأبحاث ما بعد الدكتوراه في جامعة كاليفورنيا، بيركلي، طورت “تعلم تمثيل الجدول” – مما مكّن الذكاء الاصطناعي (AI) من فهم معنى الجداول بدلاً من مجرد البحث عنها. وهي الآن تقود معمل تعلم التمثيل بالجدول في CWI، نعمل على هذا التحدي مع ثلاثة طلاب دكتوراه، واثنين من طلاب ما بعد الدكتوراه، وستة طلاب ماجستير.
يقول هولسيبوس: “باعتباري عالم بيانات، فقد شعرت بمدى صعوبة وإحباط العثور على مجموعات البيانات ذات الصلة، على سبيل المثال، لتدريب نماذج التعلم الآلي”.
يوجد الكثير من البيانات ولكنها متناثرة أو مدفونة في جداول كبيرة ومعقدة.
باستخدام التمويل بما في ذلك منحة زمالة NWO AiNed – برنامج صندوق النمو الوطني لجذب واستبقاء كبار الباحثين في مجال الذكاء الاصطناعي في الجامعات والمعاهد البحثية الهولندية – أنشأت مختبر CWI بهدف إضفاء الطابع الديمقراطي على الرؤى من البيانات المنظمة. يقول هولسيبوس: “الهدف في الأساس هو أنه بناءً على الأسئلة التي يطرحها الأشخاص – مستخدمو الأعمال والمحللون – يمكننا استرداد البيانات ذات الصلة تلقائيًا عبر أنظمة مختلفة وتقديم الإجابات”.
المعلومات إلى البصيرة
المشروع الذي حصل هولسيبوس على المنحة يسمى DataLibra، والذي يمتد من عام 2024 إلى عام 2029. وعلى مدار تلك السنوات الخمس، لا تهدف الباحثة وفريقها إلى اكتساب رؤى فحسب، بل أيضًا إلى بناء أدوات ملموسة يمكن للمؤسسات استخدامها لاستخراج المزيد من القيمة من بياناتها.
وتقول: “يجب أن يكون الاستعلام عن البيانات داخل مؤسستك أمرًا بسيطًا كما هو الحال عند إجراء بحث Google”. “يمكن للذكاء الاصطناعي أن يلعب دورًا رئيسيًا هنا لأنه يتيح استخدام اللغة الطبيعية بدلاً من مطالبة الأشخاص بالمعرفة بالبرمجة وذكاء الأعمال وقواعد البيانات العلائقية.”
إن قدرة الذكاء الاصطناعي على لعب دور هنا تبدو متناقضة. لسنوات، تم وضع الذكاء الاصطناعي كحل للبيانات غير المنظمة مثل النصوص والصور والفيديو، في حين كان من المفترض أن يكون من السهل البحث في البيانات المنظمة في الجداول. لكن المشكلة لا تكمن في البنية نفسها، كما يقول هولسيبوس، بل في تنوعها.
يستخدم كل نظام أسماء أعمدة ومنطقًا مختلفًا، مما يتسبب في فشل الأساليب التقليدية مثل SQL ومطابقة الأنماط. وتضيف: “عليك أن تفهم ما تعنيه الأعمدة، وليس فقط ما يطلق عليه”. “وهذا هو المكان الذي يتفوق فيه التعلم الآلي، لأنه يمكنه تعميم وفهم السياق.”
إن استرداد مجموعة البيانات الصحيحة هو مجرد البداية. يقول هولسيبوس: “نحن نسمي هذا استرجاع المعلومات، ولكننا نريد التحرك نحو استرجاع البصيرة”. “بمجرد العثور على الجداول ذات الصلة، غالبًا ما تظل بحاجة إلى دمجها أو ربطها أو معالجتها قبل أن تتمكن من استخلاص رؤية واضحة.”
وهذا يجعل التحدي أكثر تعقيدًا من البحث البسيط. وفي الوقت نفسه، تؤكد على أن الأتمتة الكاملة ليست هي الهدف. وتقول: “لا يمكن لأحد أن يثق ببساطة في البصيرة”. “يجب أن تكون قادرًا دائمًا على توضيح سبب كون الإجابة هي الإجابة الصحيحة لهذا السؤال المحدد. فالشفافية والتكرار أمران حاسمان في هذا الصدد.”
أتمتة علم البيانات
عندما سُئل عن كيفية اختلاف تمثيل الجدول عن ذكاء الأعمال التقليدي، أجاب هولسيبوس: “يقوم علماء البيانات بأكثر من مجرد ذكاء الأعمال التقليدي. [business intelligence] مهام مثل التقارير ولوحات المعلومات، كما يقومون أيضًا بتدريب نماذج التعلم الآلي. هدفنا أيضًا هو تطوير أدوات لأتمتة المهام اليومية المتكررة مثل تنظيف البيانات أو التحقق من صحتها أو تحويل البيانات.
غالبًا ما يقال أن علم البيانات يتكون من 80% من البيانات و20% من النمذجة. وتقول: “نريد أتمتة نسبة 80% من البيانات قدر الإمكان، حتى يتمكن علماء البيانات من التركيز على الجزء الآخر حيث يفكرون في الجوانب المهمة للمشاكل، مثل المسائل الأخلاقية”.
أبعد من ذلك، يريد هولسيبوس أن يمنح جميع العلماء غير المتخصصين في البيانات المزيد من القدرات. وتقول: “وهذا يتعلق بالفعل بذكاء الأعمال، ولكن في الوقت الحاضر، لا يزال الأمر يتطلب الكثير من الوقت والمال للقيام بذلك بنفسك، لأنك لا تزال بحاجة إلى شخص يبني لوحات المعلومات ويفهم ما هي الحاجة الحقيقية للرؤية”.
“ولكن في كثير من الأحيان لا يرى الشخص الذي يواجه مشكلة ما هي البيانات التي قد تساعد. والشخص الذي يدير البيانات لا يفهم المشكلة. وهذه الفجوة هي المشكلة. ومن خلال ضمان إمكانية الاستعلام عن قواعد البيانات العلائقية بلغة بسيطة دون الحاجة إلى معرفة SQL أو هياكل البيانات الأساسية، يمكنك بالفعل توليد المزيد من الأفكار. “
يزعم العديد من موردي البرامج حاليًا أن لديهم ميزات الذكاء الاصطناعي هذه في منتجاتهم، لكن Hulsebos لا يزال غير متأثر. وتقول: “من السهل جدًا بناء شيء لا يعمل بالضرورة بشكل جيد دائمًا”. “هناك الكثير من العروض التوضيحية الرائعة لعلماء أو محللي البيانات الفاعلين، لكنني قمت بفحص المعايير وكان معدل النجاح غالبًا صفرًا. كل هذا يبدو رائعًا، ولكن للوصول إلى هناك فعليًا، لا يزال أمامنا الكثير من العمل للقيام به.”
يؤكد هولسيبوس على أهمية المتانة والشفافية في الأنظمة. “يمكنك أن تسأل LLM [large language model] تقول: “سؤال وسيقدم دائمًا إجابة، ولكن يجب أيضًا أن يكون قادرًا على إقناعك بأنها الإجابة الصحيحة. إن الشفافية والسياق ضروريان لاعتماده”.
يحدد السياق حساسية البيانات
على وجه التحديد، أثبتت الشفافية والسياق أهميتهما في المشروع الذي أجراه هولسيبوس مؤخرًا لصالح الأمم المتحدة. إنه يوضح ليس فقط سبب فشل الأدوات الموجودة، ولكن أيضًا ما هو مطلوب لجعل تعلم تمثيل الجدول عمليًا.
جاء التعاون عندما اتصل هولسيبوس، عندما كان على المسار الأكاديمي، بمركز البيانات الإنسانية. وتقول: “إن الجانب المتعلق بالمساعدات الإنسانية يحفزني حقاً”. “رأيت أنه من خلال منصبي يمكنني تحقيق التأثير المجتمعي من خلاله بالتعاون مع الأمم المتحدة في مسائل البحث العلمي.”
ركز المشروع المشترك الأول على اكتشاف البيانات الحساسة، وهو تحدٍ يرتبط ارتباطًا مباشرًا بأبحاثها السابقة في معهد ماساتشوستس للتكنولوجيا حول معنى الجداول. يقوم مركز البيانات الإنسانية بتسهيل قيام المنظمات المحلية بتقديم المساعدة أثناء النزاعات والكوارث الطبيعية والأزمات الأخرى. ومن خلال منصة تبادل البيانات الإنسانية الخاصة بها، تقوم هذه المنظمات بمشاركة مجموعات البيانات التي يمكن للآخرين استخدامها للتخطيط والتنسيق.
يقول هولسيبوس: “المشكلة هي أن الكثير من تلك البيانات تأتي من مناطق النزاع وتحتوي على معلومات حساسة للغاية”. “لكن ما هو حساس هنا يختلف اختلافًا جوهريًا عما تصنفه العديد من الأنظمة الحالية على أنه “حساس”. فهي تركز عادةً على البيانات الشخصية مثل الأسماء والعناوين، لكننا هنا ننظر إلى أبعد من ذلك، أي البيانات التي يمكن أن تكون خطيرة في سياق معين. خذ على سبيل المثال الإحداثيات التفصيلية للمستشفيات في مناطق النزاع. يمكن أن يؤدي ذلك إلى تمكين هجمات جديدة. أنت تريد تصفية مجموعات البيانات هذه قبل أن تصبح متاحة للجمهور.”
بالتعاون مع طالب الماجستير ليانج تيلكامب، طور هولسيبوس آليتين لمعالجة هذا الأمر. تتضمن الآلية الأولى سياق البيانات الكامل في منطقها، مما يقلل بشكل كبير من الإيجابيات الكاذبة. وتقول: “تكتشف الأدوات الموجودة عنوانًا وتستنتج أنه حساس”. “لكن عنوان الشركة قد يكون عامًا تمامًا – وليس حساسًا. عليك أن تنظر إلى السياق الذي يُذكر فيه شيء ما، وليس فقط نوع البيانات”.
وتربط الآلية الثانية – “الاسترداد ثم الكشف” – مجموعات البيانات بالسياسات والبروتوكولات ذات الصلة المطبقة في تلك اللحظة. يقول هولسيبوس: “عندما يندلع صراع في مكان ما، تتغير الأمور الحساسة”. “يجب أن يكون نظامك قادرًا على استرداد هذا السياق الجديد ودمجه في تقييمه.”
وقد ثبت أن هذا النهج الديناميكي ضروري. تتطلب مجموعة البيانات المتعلقة بالمستشفيات في هولندا تقييمًا مختلفًا عن نفس البيانات الواردة من غزة. وتقول: “إن الأمر لا يقتصر على الظرفية فحسب، بل يعتمد أيضًا على الوقت”. “المعلومات التي لم تكن حساسة قبل خمس سنوات قد تصبح فجأة كذلك الآن. يجب أن تكون قادرًا على التفكير في السياق الذي تُستخدم فيه البيانات.”
وتظهر النتائج أن هذا النهج يعمل، لا سيما في الكشف عن المعلومات الشخصية، ولكن النظام يثبت أيضًا قيمته بالنسبة للبيانات الحساسة للموقف. يقول هولسيبوس: “لقد وجد موظفو تقييم الجودة في الأمم المتحدة أن التفسيرات السياقية الواردة من ماجستير إدارة الأعمال مفيدة للغاية”. “إن بروتوكولات تبادل المعلومات هذه عبارة عن وثائق طويلة للغاية. وكان قيام النظام باستخراج القواعد ذات الصلة وشرح سبب حساسية شيء ما أمرًا ثاقبًا للغاية بالنسبة لهم.”
حصل عمل تيلكامب – وهي تعمل الآن في الأمم المتحدة في مجال التكامل – على جائزة أمستردام لأطروحة الذكاء الاصطناعي، ويرجع ذلك جزئيًا إلى تأثيره المجتمعي.
جعل رؤى البيانات متاحة على نطاق أوسع
ويوضح مشروع الأمم المتحدة مشكلة محددة، ولكن التحدي الأساسي ــ كيفية جعل البيانات متاحة ومفهومة ــ يتجلى في كل منظمة. يقول هولسيبوس إن فهم حساسيات البيانات في سياق المنظمة أمر مفيد دائمًا. علاوة على ذلك، من المهم أن ندرك أن حاملي شهادة الماجستير في القانون مدربون على جميع أنواع مجموعات البيانات المستخرجة من الإنترنت، بما في ذلك بوابات مشاركة البيانات.
وتقول: “من المهم جدًا التأكد من عدم وصول أي بيانات حساسة إلى تلك البوابات، لأنه بمجرد وجودها في بيانات تدريب تلك النماذج، فإنها لن تظهر”.
لكن المؤسسات تفشل أيضًا في الاستفادة الكاملة من البيانات التي تجمعها. يقول هولسيبوس: “نحن لا نعرف ما لا نعرفه”. “يطرح الأشخاص أسئلة حول أشياء يعرفون بالفعل أن البيانات موجودة بشأنها. ولكن ما هو عدد الأفكار التي تفتقدها لأنك لا تعلم بوجود بيانات معينة؟ أو لأنك لا تعرف مجموعات البيانات التي يجب عليك دمجها للحصول على إجابة؟ “
ولذلك فهي ترغب في توضيح ما لا يعرفه الأشخاص بعد عن بياناتهم وإتاحة الوصول إلى البيانات والرؤى على نطاق أوسع في المؤسسات. يقول هولسيبوس: “بالنسبة للرئيس التنفيذي، من المفيد للغاية أن يكون لدى كل فرد داخل مؤسسته إمكانية الوصول المباشر إلى الرؤى التي تساعده على اتخاذ قرارات مهمة”.
وتصف الحاجة أولاً إلى تعبئة قسم علوم البيانات أو ذكاء الأعمال بأنه “عائق أمام أي شخص يعمل في مجال المبيعات أو الخدمات اللوجستية أو التمويل لطرح سؤال مهم بسرعة”.
يقول هولسيبوس: “بحلول الوقت الذي يتم فيه تسليم لوحة معلومات BI أو استعلام SQL، لن تعد الرؤية ذات صلة”.
ويتطلب ذلك أنظمة مدعومة بالذكاء الاصطناعي تعمل على إضفاء الطابع الديمقراطي على الرؤى المستمدة من البيانات المنظمة، وتمكين الناس من التصرف واتخاذ القرار بشكل مباشر. وتضيف: “إن سرعة الوصول إلى المعرفة هي العامل الرئيسي”.
هناك حلول ملموسة للأعمال قيد التطوير. يقوم أحد طلاب الدكتوراه ببناء أدوات لأتمتة جانب الاسترجاع والدعم لغة الاستعلام المنظمة جيل. “نحن نصنع كل ذلك أدوات متاح كما مفتوح المصدر“يقول هولسيبوس. “نحن نحاول أن نجعل الأشياء قابلة للاستخدام حقًا، وليس مجرد نشرها. وفي غضون الشهرين المقبلين، ستكون الإصدارات الأولى متاحة.
أحد الأمثلة على ذلك هو DataScout، وهي أداة طورتها خلال فترة وجودها في جامعة كاليفورنيا، بيركلي. يساعد النظام المستخدمين في العثور على مجموعات البيانات بناءً على مهمتهم أو مشكلتهم، بدلاً من الكلمات الرئيسية. يقول هولسيبوس: “إن البحث القائم على المهام مع حاملي شهادة الماجستير في القانون الذين يفكرون بشكل استباقي يكون مفيدًا للغاية”.
في دراسات المستخدمين، أثبتت DataScout أنها أسرع وأكثر فعالية من منصات البيانات التقليدية في البحث عن الكلمات الرئيسية. وتقول: “باعتبارك عالمة بيانات، قد يستغرق الأمر من أسبوعين إلى شهر قبل أن تتمكن من جمع البيانات الصحيحة لنموذج التعلم الآلي”.
إن حقيقة أن مثل هذه الأنظمة لا تزال غير قياسية في منصات البيانات، في حين أنها يمكن أن توفر أسابيع من أعمال البحث، لا تزال مفاجأة هولسيبوس. وتقول: “الهدف هو أن يتمكن كل فرد في المؤسسة – بدءًا من الرئيس التنفيذي إلى موظفي المبيعات – من طرح الأسئلة المتعلقة ببياناتهم مباشرةً”. “بدون وسطاء، وبدون وقت انتظار.”




