ما هي الإفراط في التخليق والألعاب السفلية؟
الإفراط في التخطيط والأشعة السفلية هي التقنيات المستخدمة في تحليلات البيانات والإحصائيات لتعديل غير متكافئ بيانات فصول لإنشاء متوازن مجموعات البيانات. تُعرف أيضًا الإفراط إعادة أخذ عينات.
غالبًا ما يتم استخدام تقنيات تحليل البيانات هذه لتكون أكثر تمثيلا للبيانات في العالم الحقيقي. على سبيل المثال ، يمكن إجراء تعديلات البيانات من أجل توفير مواد تدريب متوازنة لـ منظمة العفو الدولية و التعلم الآلي الخوارزميات.
https://www.youtube.com/watch؟v=nse1jbetwjs
أين تستخدم الإفراط
يتم استخدام الإفراط في التخطيط والأشعة السفلية لإدخال تحيز عن قصد في مجموعة بيانات بقصد جعل النموذج الناتج أكثر حساسية لمجموعة معينة مما قد يكون خلاف ذلك.
أحد المجالات التي يتم فيها استخدام تقنيات الإفراط في التخطيط والأشعة السفلية هو لأبحاث المسح. قد يكون عدد سكان عينة المسح غير متوازنة من حيث أنواع المشاركين. من خلال استخدام الإفراط في التخلي أو السحب ، يمكن أن تستخدم نسب الخصائص التي شملها الاستطلاع ، مثل الجنس والفئة العمرية والعرق ، لجعل وزن البيانات أفضل من نسب المجموعة داخل السكان الأكبر.
هناك حاجة إلى الإفراط في الإفراط والأخطاء السفلية تدريب نموذج للكشف عن النشاط الاحتيالي أو الخبيث. مثال واحد هو شركة بطاقة ائتمان لديها ملايين سجلات النشاط الصحيح ولكن الآلاف فقط من الحالات نشاط احتيالي. مثال آخر هو أ مراقبة الشبكة الأداة التي لديها مليارات نقاط البيانات ولكنها تحتاج إلى العثور على عينة صغيرة من النشاط الخبيث. لتدريب مثل هذه النماذج ، قد يكون من الضروري إنتاج المزيد من البيانات عن الاحتيال (الإفراط في تناول الطعام) وإزالة بعض البيانات الجيدة (السماوية).
يعد الإفراط في التخطيط والأشعة السفلية مفيدة أيضًا عندما يكون من المهم تحديد حالة الأقلية بدقة. على سبيل المثال ، بالنسبة للنشاط الاحتيالي أو الخبيث ، من الأفضل أن نعلق نشاطًا جيدًا بشكل غير دقيق على أنه سيء من تفويت النشاط السيئ والسماح له بالمرور. لذلك ، الصغيرة مقدار التحيز قد يتم تقديم ذلك بواسطة هذه التقنيات مقبولة إذا جعل النموذج الناتج أكثر حساسية.
overampling مقابل undersampling
عندما واحد فئة من البيانات هل فئة الأقليات الممثلة تمثيلا ناقصا في عينة البيانات ، يمكن استخدام تقنيات الإفراط في التخطيط لتكرار هذه النتائج لعدد أكثر توازنا من النتائج الإيجابية في التدريب. يتم استخدام الإفراط في التغلب عند كمية البيانات التي تم جمعها غير كافية.
على العكس من ذلك ، إذا كانت فئة من البيانات هي فئة الأغلبية المفرطة تمثيلا ، فقد يتم استخدام أخطاء أقل لموازنة مع فئة الأقلية. يتم استخدام أخطاء أسفل عندما يتم جمعها البيانات كافية. يمكن أيضًا استخدام السعة السفلية عندما يكون هناك الكثير من البيانات التي يمكن معالجتها بسهولة ، لكن هذا أصبح من غير المألوف أن تصبح المعالجة والتخزين أرخص.
في كل من الإفراط في تناول الطعام والأعلى ، نادراً ما يتم اقتراح تكرار البيانات البسيط. بشكل عام ، يكون الإفراط في التخطيط هو الأفضل لأن السعة السفلية يمكن أن تؤدي إلى فقدان البيانات المهمة. يُقترح الانحراف عندما تكون كمية البيانات التي تم جمعها أكبر من المثالية ويمكن أن تساعد استخراج البيانات تبقى الأدوات ضمن حدود ما يمكنها معالجته بفعالية.

التقنيات الزائدة
الإفراط العشوائي هي أبسط طريقة لإفراط في التغلب. إنه ببساطة يكرر بعض الإدخالات في مجموعة البيانات الممثلة تمثيلا ناقصا. لا ينصح به على الرغم من أنه يمكن أن يتسبب في زيادة التخصيص في النموذج الناتج للبيانات المتكررة. قد تقدم بعض الطرق عشوائيًا ضوضاء في العينات التي تم إنشاؤها.
تقنية الإفراط في الأقسام الاصطناعية (SMOTE) يولد بيانات جديدة فريدة بناءً على البيانات الموجودة. يحدد خصائص البيانات وإنشاء إدخالات جديدة معقولة. على سبيل المثال ، إذا كانت مجموعة بيانات الأوزان قد دخلت عند 150 رطلاً وآخر عند 160 رطلاً ، فقد يخلق إدخالًا عند 155 رطلاً. البيانات الناتجة أكثر تنوعًا ومن المرجح أن تمثل السكان الحقيقيين.
أخذ العينات الاصطناعية التكيفية (ADASYN) هو امتداد للضرب. على الرغم من أن SHOTE يركز عادةً على متوسط البيانات في منتصف المجموعة ، فقد يركز Adasyn على البيانات على حواف مجموعة البيانات ، والتي يصعب جمعها وتدريبها.
تقنيات السحب
عشوائي يزيل الإدخالات بشكل عشوائي. من السهل التنفيذ ولكن يمكن أن تفقد التفاصيل المهمة في مجموعة البيانات.
الكتلة ، أو النسيان المركزي ، يأخذ عدة إدخالات متشابهة أو قريبة من بعضها البعض ويحل محلها بإدخال واحد.
أقرب جار مكثف (CNN) يأخذ إدخالات البيانات الواضحة في فئة أو أخرى وتزيلها. هذا يحافظ على أقصى نقاط البيانات التي قد تساعد في مواقف غير واضحة ولكنها تقلل من البيانات اللازمة للحالات البسيطة.
روابط توميك ابحث عن أزواج من فئات مختلفة بالقرب من بعضها البعض وإزالة دخول الأغلبية. هذا يساعد على الحفاظ على حدود واضحة بين الفئات في مجموعة البيانات.
اختيار أحادي الجانب يجمع بين روابط CNN و Tomek لإزالة البيانات الزائدة من مجموعة بيانات الأغلبية ، مع الحفاظ على مجموعة بيانات الأقليات.
يمكن أن تكون التحليلات منحازة ، والتي يمكن أن تؤذي الأرباح أو تؤدي إلى رد فعل عنيف اجتماعي بسبب التمييز. من المهم إصلاح هذه التحيزات قبل حدوث مشاكل. يستكشف أنواع مختلفة من التحيز في تحليل البيانات وكيفية تجنبها.




