تقنية

15 تقنية شائعة لعلم البيانات يجب معرفتها واستخدامها


المنظمات التي لا تعمل بشكل كاف الاستثمار في علم البيانات سيتم تركها في الخلف مع حصول المنافسين على مزايا كبيرة.

ماذا بالضبط ما يفعله علماء البيانات الذي يوفر مثل هذه الفوائد التجارية التحويلية؟ تستخدم تطبيقات علم البيانات التعلم الآلي (مل) والبيانات الضخمة لتطوير رؤى عميقة وقدرات جديدة، بما في ذلك التحليلات التنبؤية والتعرف على الصور والأشياء وأنظمة الذكاء الاصطناعي للمحادثة وما بعدها. مجال علم البيانات عبارة عن مجموعة من بعض المكونات الرئيسية:

  • الأساليب الإحصائية والرياضية لاستخراج البيانات القابلة للقياس بدقة.
  • الأساليب التقنية والخوارزمية التي تسهل العمل مع مجموعات البيانات الكبيرة.
  • تقنيات ومنهجيات التحليلات المتقدمة لمعالجة تحليل البيانات من منظور علمي.
  • أدوات وأساليب هندسية لتحويل كميات كبيرة من البيانات إلى تنسيقات استخلاص رؤى عالية الجودة.

العديد من التقنيات الإحصائية والتحليلية الشائعة التي يستخدمها علماء البيانات لها جذور في قرون من الرياضيات والإحصاء المعززة بالتقنيات الجديدة. إن فهم هذه التقنيات ونشرها سيساعد المؤسسات على تحقيق الفوائد الإستراتيجية والتنافسية التي يتمتع بها منافسوها من الأعمال بالفعل.

كيف يجد علم البيانات العلاقات بين البيانات

عند تحديد إبرة المعلومات في أكوام البيانات، يجب على علماء البيانات اكتشاف كيفية ارتباط عناصر البيانات المختلفة. تخيل أن هناك مجموعة من نقاط البيانات المرسومة على الرسم البياني. هذه النقاط يمكن أن تعني ما يلي:

  • تمثل البيانات علاقة بين متغيرين أو أكثر. في هذه الحالة، ارسم خطًا أو مستوى متعدد الأبعاد يصف العلاقة بشكل أفضل.
  • تمثل البيانات مجموعات متفاوتة المسافات لها بعض التقارب.
  • تمثل البيانات فئات مختلفة.
صورة توضح الأنواع الثلاثة لتقنيات علم البيانات، بما في ذلك التصنيف والانحدار والتجميع.
الأنواع الثلاثة من التقنيات الإحصائية والتحليلية الأكثر استخدامًا من قبل علماء البيانات.

تحديد هذه العلاقات يعطي معنى للبيانات العشوائية. يمكن لعلماء البيانات بعد ذلك تحليل وتصور البيانات لتزويد المنظمات بالمعلومات التي تحتاجها لاتخاذ القرارات أو تخطيط الاستراتيجيات.

تقنيات التصنيف

يستخدم علماء البيانات تقنيات وأساليب مختلفة لعلم البيانات لإجراء تحليل البيانات. إنهم يتطلعون إلى الإجابة على سؤال أساسي يتعلق بمشاكل التصنيف: ما الفئة التي تنتمي إليها هذه البيانات؟

هناك أسباب عديدة لتصنيف البيانات. إذا كانت البيانات عبارة عن صورة مكتوبة بخط اليد، فقد ترغب في معرفة الحرف أو الرقم الذي تمثله. إذا كانت البيانات تمثل طلبات القروض، فقد ترغب في تحديد ما إذا كان ينبغي الموافقة عليها أو رفضها. تركز التصنيفات الأخرى على تحديد علاجات المرضى أو ما إذا كانت رسالة البريد الإلكتروني عبارة عن بريد عشوائي.

يستخدم علماء البيانات الخوارزميات والأساليب التالية لتصفية البيانات إلى فئات.

  • أشجار القرار. هذا عبارة عن بنية منطقية متفرعة تستخدم أشجار المعلمات والقيم التي تم إنشاؤها آليًا لتصنيف البيانات إلى فئات محددة.
  • مصنفات ساذجة بايز. باستخدام الاحتمالية، تساعد مصنفات بايز على وضع البيانات في فئات بسيطة.
  • دعم آلات المتجهات. تقوم SVMs برسم خط أو مستوى بهامش واسع لفصل البيانات إلى فئات مختلفة.
  • K-أقرب جار. تستخدم هذه التقنية أسلوب “القرار البطيء” البسيط لتحديد الفئة التي يجب أن تنتمي إليها نقطة البيانات. يعتمد هذا القرار على فئات أقرب جيرانها في مجموعة البيانات.
  • الانحدار اللوجستي. تعمل تقنية التصنيف هذه على ملاءمة البيانات في خط للتمييز بين الفئات المختلفة على كل جانب. شكل الخط يجعل البيانات تنتقل بين الفئات بدلاً من السماح بارتباطات أكثر مرونة.
  • الشبكات العصبية. يستخدم هذا النهج المدربين الشبكات العصبية الاصطناعيةوخاصة تلك التي تستخدم التعلم العميق مع طبقات مخفية متعددة. أظهرت الشبكات العصبية قدرات تصنيف عميقة مع مجموعات بيانات تدريب واسعة النطاق.

تقنيات الانحدار

بدلاً من محاولة العثور على فئة البيانات التي تندرج ضمنها، قد ترغب الفرق في معرفة العلاقة بين نقاط البيانات. يهدف الانحدار إلى إيجاد القيمة المتوقعة للبيانات. إنها تأتي من الفكرة الإحصائية المتمثلة في “الانحدار إلى المتوسط”.

يمكن أن يكون الانحدار إما مباشرًا – بين متغير مستقل ومتغير تابع – أو متعدد الأبعاد، والذي يحاول العثور على العلاقة بين متغيرات متعددة.

يمكن لبعض تقنيات التصنيف، مثل أشجار القرار وSVMs والشبكات العصبية، أيضًا القيام بالانحدارات. تتضمن تقنيات الانحدار الأخرى ما يلي:

  • الانحدار الخطي. أحد أساليب علم البيانات الأكثر استخدامًا، يحاول هذا النهج العثور على الخط الذي يناسب البيانات التي تم تحليلها على أساس الارتباط بين متغيرين.
  • الانحدار لاسو. تعمل هذه التقنية على تحسين دقة التنبؤ لنماذج الانحدار الخطي باستخدام مجموعة فرعية من البيانات في النموذج النهائي. لاسو هو اختصار لعبارة “أقل عامل انكماش واختيار مطلق”.
  • الانحدار متعدد المتغيرات. تتضمن هذه التقنية تحديد الخطوط أو المستويات التي تتوافق مع أبعاد بيانات متعددة، ومن المحتمل أن تحتوي على عدة متغيرات.

تقنيات تحليل التجميع والارتباط

يساعد التجميع والارتباط علماء البيانات على تحديد كيفية تقسيم نماذج البيانات إلى مجموعات والمجموعات التي تنتمي إليها نقاط البيانات المختلفة.

التجميع

تشترك مجموعات نقاط البيانات ذات الصلة في خصائص مختلفة. أنها توفر رؤى قيمة لتطبيقات التحليلات. تشمل طرق التجميع واستخداماتها ما يلي:

  • K-يعني التجميع. أ ك-يعني خوارزمية يحدد عددًا معينًا من المجموعات في مجموعة بيانات ويبحث عن النقط الوسطى التي تحدد مواقع المجموعات. يتم تعيين نقاط البيانات إلى أقرب نقطة.
  • تجميع متوسط ​​التحول. هذه تقنية تجميع أخرى تعتمد على النقطه الوسطى. من الممكن استخدامه بمفرده، ولكن يمكنه أيضًا تحسين تجميع الوسائل k عن طريق تغيير النقط الوسطى المعينة.
  • DBSCAN. تستخدم هذه التقنية لاكتشاف المجموعات طريقة أكثر تقدمًا لتحديد كثافات الكتلة من خلال تجميع نقاط البيانات ووضع علامة على القيم المتطرفة كضوضاء. DBSCAN هو اختصار لعبارة “التجميع المكاني للتطبيقات ذات الضوضاء على أساس الكثافة”.
  • نماذج الخليط الغوسي. تجد GMMs مجموعات باستخدام توزيع غاوسي لتجميع البيانات معًا بدلاً من التعامل مع البيانات كنقاط فردية.
  • التجمع الهرمي. على غرار شجرة القرار، تستخدم هذه التقنية أسلوبًا هرميًا متفرعًا للعثور على المجموعات.

تحليل الرابطة

تحليل الارتباط هو تقنية ذات صلة ولكنها منفصلة. يجد قواعد الارتباط التي تصف القواسم المشتركة بين نقاط البيانات المختلفة. مثل التجميع، فإنه يبحث عن المجموعات التي تنتمي إليها البيانات.

ومع ذلك، في التجميع، الهدف هو فصل مجموعة كبيرة من البيانات إلى مجموعات يمكن تحديدها. يقيس تحليل الارتباط درجة الارتباط بين نقاط البيانات. فهو يحاول تحديد متى ستحدث نقاط البيانات معًا، بدلاً من تحديد المجموعات بعد حدوثها.

أمثلة على تطبيقات علم البيانات

تطبيق الأساليب والتقنيات السابقة على مشكلات وأسئلة تحليلية محددة والبيانات المتاحة لمعالجتها. يفهم علماء البيانات الجيدون طبيعة المشكلة المطروحة – التجميع أو التصنيف أو الانحدار – و أفضل نهج خوارزمي للحصول على إجابات مرغوبة في ضوء خصائص البيانات. هذا هو السبب في أن علم البيانات هو عملية علمية، بدلاً من مجموعة من القواعد الصارمة والسريعة.

باستخدام هذه التقنيات، يمكن لعلماء البيانات التعامل مع التطبيقات المختلفة، والتي يكون الكثير منها شائعًا عبر مختلف الصناعات والمنظمات. وهنا بعض الأمثلة.

كشف الشذوذ

يؤدي تحديد نمط البيانات المتوقعة – أو “العادية” – إلى تسهيل العثور على نقاط البيانات التي لا تتناسب مع النمط. تستخدم الشركات في مختلف الصناعات، مثل الخدمات المالية والرعاية الصحية وتجارة التجزئة والتصنيع، بانتظام أساليب علم البيانات المختلفة لتحديد الحالات الشاذة في بياناتها. تشمل حالات الاستخدام اكتشاف الاحتيال، تحليلات العملاءوالأمن السيبراني ومراقبة أنظمة تكنولوجيا المعلومات. يمكن أن يؤدي اكتشاف الحالات الشاذة أيضًا إلى إزالة القيم المتطرفة من مجموعات البيانات لتحسين دقة التحليلات.

تصنيف ثنائي ومتعدد الطبقات

التطبيق الأساسي لتقنيات التصنيف هو تحديد ما إذا كانت البيانات تنتمي إلى فئة معينة. ويعرف هذا باسم التصنيف الثنائي. تطبيق عملي للأعمال يستخدم التعرف على الصور لتحديد العقود أو الفواتير بين أكوام من المستندات.

في التصنيف متعدد الفئات، يريد علماء البيانات تحديد الأنسب لنقاط البيانات بين العديد من الفئات في مجموعة البيانات. على سبيل المثال، يستخدمه مكتب الولايات المتحدة لإحصاءات العمل للتصنيف الآلي لإصابات مكان العمل.

التخصيص

يجب على المؤسسات التي تسعى إلى تخصيص التفاعلات أو التوصية بالمنتجات والخدمات أن تقوم أولاً بتجميع الأفراد في مجموعات بيانات بناءً على الخصائص المشتركة. علم البيانات الفعال تمكن المؤسسات من تصميم مواقع الويب والعروض التسويقية والمزيد بما يتناسب مع احتياجات وتفضيلات الأفراد المحددة. يمكنهم تحقيق ذلك باستخدام محركات التوصية و أنظمة التخصيص المفرط التي تتطابق مع البيانات الموجودة في الملفات الشخصية التفصيلية للأشخاص.

رون شميلزر هو شريك إداري ومؤسس لشركة Cognilytica.



Source link

زر الذهاب إلى الأعلى