أخبار التقنية

الذكاء الاصطناعي في المؤسسة: كيفية بناء مجموعة بيانات الذكاء الاصطناعي


ربما يكون العثور على البيانات الصحيحة والحصول عليها لبناء مجموعة بيانات مؤسسية من أهم المهام التي تواجه المؤسسات التي تريد بناء نماذج الذكاء الاصطناعي الخاصة بها.

حتى مع الخبرة العملية، يمكن أن تسوء الأمور بسهولة، وفقًا لوسيم علي، الرئيس التنفيذي لشركة الاستشارات روكبورن. يقول علي: “يبدأ الأمر دائمًا بالبيانات. إذا لم تكن بياناتك جيدة، فإنك ستفشل في تحقيق أهدافك”. نموذج “لن يكون جيدا.”

وبدلاً من ذلك، في كثير من الأحيان، لا ينبغي أن يتمثل التحدي بالنسبة للشركات في رغبتها في السيطرة على العالم بمشروعها الأول، بل في إطلاق مشروع تجريبي يمكّنها من أخذ الأمور إلى أبعد من ذلك، كما يقترح.

قم بفحص الاحتياجات التجارية المحددة ومتطلبات مشروع البيانات أو المشروع الرقمي واسأل ما هي المشكلة التي تحتاج إلى حل، وما هو “الحدس” الذي يحتاج إلى الاستفسار، ولكن تجنب الخوض العميق في “التأثيرات العالمية” في البداية.

العمل من المبادئ الأولى نحو الحصول على البيانات الخاصة بالموضوع حالة الاستخدام هذا هو السؤال المطروح، كما يوضح يوهانس ماونز، رئيس الذكاء الاصطناعي في شركة Hexagon المتخصصة في إنترنت الأشياء الصناعي.

يقول ماونز “لا يوجد نموذج واحد للتعلم الآلي أو التعلم العميق لحل جميع حالات الاستخدام. قارن الوضع الراهن بما تحتاج إلى تحسينه. ما هي البيانات المتاحة التي تحتاج إلى التقاطها؟ افعل ذلك بطريقة صغيرة أو محدودة، فقط لحالة الاستخدام هذه”.

يركز نهج Hexagon عادةً على أجهزة الاستشعار الخاصة به، مع البيانات الخاصة بحالات الاستخدام في البناء على الجدران والنوافذ والأبواب وما إلى ذلك. وحتى ما يتم عرضه في المتصفح، تعرف Hexagon البيانات ومعاييرها وتنسيقها وتناسقها وما إلى ذلك.

ضع في اعتبارك أولاً البيانات المطابقة ومجموعات البيانات التي تمتلكها الشركة بالفعل أو يمكنها استخدامها. وهذا يستلزم عادةً العمل بشكل وثيق مع قانوني وفرق حماية الخصوصية، حتى في بيئة صناعية داخلية. ويوصي ماونز بالتأكد من أن البيانات المخصصة للاستخدام لا تحتوي على أي معلومات شخصية خاصة. ومن هنا، يمكن للشركات بناء النموذج الذي تريد استخدامه وتدريبه – على افتراض أن التكاليف والجدوى موجودة.

ومن هناك، شفافية قرار يمكن أن تظهر النقاط اللازمة لجعل الأمور تعمل وقيم الإشارة لتقدير عوامل مثل قابلية الاستخدام والجدوى وتأثيرات الأعمال أو الأداء المحتمل مقابل بيانات المنافسة.

بالنسبة للبيانات التي لا تحتفظ بها المؤسسة حاليًا، قد يكون من الضروري إجراء مفاوضات مع بعض الشركاء أو العملاء للحصول عليها.

يقول ماونز: “الناس منفتحون للغاية، بصراحة – ولكن هناك دائمًا عقد قائم. فقط بعد ذلك نبدأ في القيام بما نطلق عليه عادةً حملات البيانات. في بعض الأحيان يكون من المنطقي أن نبدأ ببيانات أكثر من اللازم، حتى تتمكن المؤسسة من تقليص العينات”.

يمكن أن تكون جودة البيانات وبساطتها أمرًا ضروريًا

يسلط إميل نوس، الشريك في شركة BearingPoint لاستشارات سلسلة التوريد، الضوء على التركيز على جودة البيانات في مجال الذكاء الاصطناعي/التعلم الآلي. حافظ على البساطة قدر الإمكان. فالتعقيد يجعل اتخاذ القرارات الصحيحة أمرًا صعبًا ويضر بالنتائج – ثم هناك التحيز والملكية الفكرية التي يجب مراعاتها. ويضيف نوس: “البيانات الداخلية ليست مثالية، ولكن على الأقل سيكون لديك نظرة على مدى جودتها”.

ويحذر من أنه في مقابل خط ملائم ثنائي الأبعاد سهل الاستخدام، أو حتى خط ملائم ثلاثي الأبعاد، فإن خطًا ملائمًا متعدد الأبعاد ومعقدًا مدعومًا بالذكاء الاصطناعي/التعلم الآلي يمكن أن يؤدي إلى نتائج أفضل بكثير – تحسين الإنتاج، و”وصفات” الحلول، وتقليل النفايات، والمزيد – إذا تم “إطلاق العنان” للمؤسسات للبيانات الصحيحة.

“كما هو الحال مع جميع النماذج، نظرًا لأن نموذج الذكاء الاصطناعي يُستخدم لبناء نموذج، والنموذج دائمًا ما يكون خاطئًا، فإن حوكمة البيانات هي المفتاح”، كما يقول. “قد تكون الأجزاء التي لا تملكها أكثر أهمية في الواقع. عليك أن تحدد مدى اكتمال البيانات ومدى دقتها”.

يوصي آندي كريسپ، نائب الرئيس الأول للبيانات والتحليلات في شركة دان آند برادستريت (D&B)، باستخدام رؤى العملاء وعناصر البيانات الهامة لتحديد معايير جودة البيانات والتسامحات والقياس والمراقبة.

“البيانات التي [clients[ want or acquire from us [for example] يقول كريسب: “إننا نجري حوالي 46 مليار عملية حسابية لجودة البيانات، ونأخذ بياناتنا ثم نكررها مرة أخرى وفقًا لهذه المعايير، ثم ننشرها”. جودة البيانات ملاحظات [each month]”.”

على سبيل المثال، يجب أن تحقق سمة محددة من خلال عدسة معيار محدد أداءً جيدًا بما يكفي لتمريرها إلى الفريق التالي، الذي يأخذ تلك المعايير والتسامحات، ونتائج نقاط القياس والملاحظة تلك، ثم يعمل مع إدارة البيانات لالتقاط البيانات وتنظيمها وصيانتها.

ويتفق كريسب مع هذا الرأي قائلاً: “لا يوجد بديل عن قضاء الوقت في الأشياء وتطوير فهمك لها. ابدأ بقطع قطعة واحدة من الخشب، وتحقق من طولها قبل أن تقطع خمسين لوحًا بشكل خاطئ”.

تحتاج الشركات إلى “معرفة الشكل الجيد” لتحسين أداء البيانات والرؤى، والتي يمكن بعد ذلك تجميعها معًا. حافظ على عبارات المشكلة محكمة، وتضييق نطاق تحديد البيانات لمجموعات البيانات المطلوبة. يمكن أن يتيح التعليق التوضيحي الدقيق والبيانات الوصفية تنظيم مجموعات البيانات الضابطة واتباع نهج علمي حقيقي يحدد التحيز ويساعد في تقليله.

احذر من التصريحات الكبيرة والجريئة التي تخلط بين عدة عوامل وتأكد من “اختبارها حتى التدمير”. هذا هو أحد المجالات في تكنولوجيا المعلومات حيث لا ترغب الشركات في “التحرك بسرعة وكسر الأشياء”. يجب أن تلبي جميع البيانات المستخدمة المعايير التي يجب فحصها وإصلاحها باستمرار.

يقول كريسپ، مشيرًا إلى أن فريق هندسة الجودة في شركة دي آند بي يتألف من نحو 70 عضوًا في مختلف أنحاء العالم: “قم بالقياس والمراقبة، ثم قم بالإصلاح والتحسين. وسوف تساعد الهندسة الكفؤة في محاولة الحد من الهلوسة، وما إلى ذلك”.

يتفق جريج هانسون، نائب الرئيس العام لشمال أوروبا والشرق الأوسط وأفريقيا في شركة إنفورماتيكا، على أن تحديد الأهداف أمر بالغ الأهمية ويمكن أن يساعد الشركات في تحديد أفضل السبل لقضاء وقتها من حيث فهرسة المعلومات ودمج المعلومات والبيانات المطلوبة يدرب الذكاء الاصطناعي لدعم النتائج.

حتى بيانات المؤسسة الخاصة ستكون عادةً مجزأة ومخفية عبر المواقع أو السحابات أو المواقع المحلية.

يقول هانسون: “قم بفهرسة جميع أصول البيانات لديك وفهم مكان وجود تلك البيانات. ضع في اعتبارك الذكاء الاصطناعي لإدارة البيانات بشكل أسرع أيضًا”.

ضمان الحوكمة قبل الابتلاع

يجب تطبيق جميع قواعد جودة البيانات قبل استيعابها بواسطة محرك الذكاء الاصطناعي، مع افتراض الحوكمة والامتثال المناسبين. إذا لم تقم المؤسسة بالقياس والتحديد الكمي والإصلاح، فإنها ستتخذ قرارات غير صحيحة بوتيرة متسارعة، كما يقول هانسون، مضيفًا: “تذكر: القمامة تدخل، القمامة تخرج”.

يقول تيندو يوغورتشو، كبير مسؤولي التكنولوجيا في شركة Precisely لتوريد مجموعات البيانات، إنه بناءً على حجم الشركة ونوع الصناعة، قد تفكر المنظمة في إنشاء لجنة توجيهية أو مجلس متعدد الوظائف للمساعدة في تحديد أفضل الممارسات والعمليات عبر جميع مبادرات الذكاء الاصطناعي ذات الصلة. يمكن أن يساعد هذا أيضًا في تسريع العمل من خلال تحديد حالات الاستخدام أو الأنماط المشتركة بين الفرق، والتي يمكن أن تستمر في التغيير مع تعلم المنظمات من التجارب والإنتاج.

قد تتطلب أطر حوكمة البيانات التوسع لتشمل نماذج الذكاء الاصطناعي. ومع ذلك، هناك العديد من حالات الاستخدام المحتملة للذكاء الاصطناعي.

“خذ التأمين. للنمذجة مخاطرة ويوضح يوغورتسو: “من أجل ضمان دقة الأسعار، تحتاج شركات التأمين إلى معلومات مفصلة حول مخاطر حرائق الغابات والفيضانات، وتضاريس القطعة، والموقع الدقيق للمبنى داخل القطعة، والقرب من صنابير مكافحة الحرائق، والمسافة إلى نقاط الاهتمام التي يحتمل أن تكون محفوفة بالمخاطر مثل محطات الوقود”.

ومع ذلك، فإن بناء نماذج الذكاء الاصطناعي ــ وخاصة الذكاء الاصطناعي التوليدي (GenAI) ــ قد يكون مكلفاً، كما يحذر ريتشارد فايرز، كبير مديري البيانات والتحليلات في شركة الاستشارات Slalom.

يقول فايرز: “ربما يمكن للشركات في بعض المجالات أن تعمل معًا – مثل المجال القانوني أو الطبي. حيث نبدأ في رؤية القيمة عندما تزيد من [GenAI] مع بياناتك – هناك طرق مختلفة يمكنك من خلالها القيام بذلك.

على سبيل المثال، في مجال الهندسة المعمارية، يستطيع المستخدمون استكمال استخدام نماذج اللغة الكبيرة (LLMs) بمجموعات البيانات والوثائق الخاصة بهم التي يتعين عليهم الاستعلام عنها. وقد تنجح استراتيجية مماثلة في إنشاء منصة بحث تذاكر تأخذ بعين الاعتبار بذكاء مجموعة من المعايير القائمة على اللغة الطبيعية والتي لا ترتبط بشكل فردي بالبيانات الوصفية والعلامات.

على سبيل المثال، إذا كان بإمكانك استخدام منصة تذاكر تمكنك من اكتشاف “عرض في عطلة نهاية الأسبوع مناسب للأطفال”، فهذا نوع من البحث قد يكون صعبًا للغاية في الوقت الحالي”، كما يقول فايرز.

بناء مجموعة البيانات والهندسة السريعة لأمثال حتى تشات جي بي تيومع ذلك، يقول إن التحول إلى نهج “أكثر تفاعلية” لا يزال يفرض التركيز على جودة البيانات والحوكمة، حيث من المقرر أن تصبح الهندسة السريعة مجموعة مهارات أساسية ذات طلب كبير.



Source link

زر الذهاب إلى الأعلى