ما هو تخفيض الأبعاد؟ | تعريف من TechTarget
ما هو تخفيض الأبعاد؟
إن تقليل الأبعاد هو عملية وتقنية لتقليل عدد الأبعاد – أو الميزات – في كائن ما مجموعة البيانات. الهدف من تقليل الأبعاد هو تقليل تعقيد مجموعة البيانات عن طريق تقليل عدد الميزات مع الاحتفاظ بالخصائص الأكثر أهمية للبيانات الأصلية.
تخفيض الأبعاد مفيد ل منظمة العفو الدولية المطورين أو محترفي البيانات الذين يعملون مع مجموعات ضخمة من البيانات، يقدمون الأداء عرض مرئي للمعلومات وتحليل البيانات المعقدة. فهو يساعد في عملية ضغط البياناتمما يسمح للبيانات بشغل مساحة تخزين أقل بالإضافة إلى تقليل أوقات الحساب. تُستخدم هذه التقنية بشكل شائع في التعلم الآلي (مل).
يتم استخدام تقنيات مختلفة، مثل اختيار الميزة واستخراج الميزة، لإكمال تقليل الأبعاد. بالإضافة إلى ذلك، تستخدم كل تقنية عدة طرق تعمل على تبسيط نمذجة المشكلات المعقدة، والقضاء على التكرار وتقليل احتمالية فرط ملاءمة النموذج.
ما أهمية تقليل الأبعاد للتعلم الآلي؟
يتطلب التعلم الآلي مجموعات كبيرة من البيانات للتدريب والتشغيل بشكل صحيح. يعد تقليل الأبعاد طريقة مفيدة بشكل خاص لمنع التجاوز ولحل المشكلة التصنيف والانحدار مشاكل.
تعد هذه العملية مفيدة أيضًا للحفاظ على المعلومات الأكثر صلة مع تقليل عدد الميزات في مجموعة البيانات. يؤدي تقليل الأبعاد إلى إزالة الميزات غير ذات الصلة من البيانات، حيث يمكن أن تقلل البيانات غير ذات الصلة من دقة خوارزميات التعلم الآلي.
ما هي التقنيات المختلفة للحد من الأبعاد؟
هناك طريقتان شائعتان لتقليل الأبعاد: اختيار الميزة واستخراج الميزة.
- في اختيار ميزة، يتم اختيار مجموعات فرعية صغيرة من الميزات الأكثر صلة من مجموعة أكبر من بيانات الأبعاد لتمثيل نموذج بها الفلترهأو التغليف أو التضمين. الهدف هنا هو تقليل أبعاد مجموعة البيانات مع الحفاظ على أهم ميزاتها.
- ميزة استخراج يجمع ويحول الميزات الأصلية لمجموعة البيانات لإنشاء ميزات جديدة. الهدف هو إنشاء مجموعة بيانات ذات أبعاد أقل لا تزال تحتوي على خصائص مجموعة البيانات.
يستخدم اختيار الميزة طرقًا مختلفة، مثل ما يلي:
- طريقة التصفية. يقوم بتصفية مجموعة بيانات إلى مجموعة فرعية تحتوي فقط على الميزات الأكثر صلة بمجموعة البيانات الأصلية.
- طريقة التغليف. يغذي الميزات في نموذج ML لتقييم ما إذا كان يجب إزالة الميزة أو إضافتها.
- الطريقة المدمجة. يقوم بتقييم أداء كل ميزة عن طريق التحقق من تكرارات التدريب لنموذج تعلم الآلة.
يستخدم استخراج الميزة طرقًا مثل ما يلي:
- رئيسي عنصر التحليل (PCA). عملية إحصائية تحدد وحدات أصغر من الميزات من مجموعات بيانات أكبر. تسمى هذه الوحدات الصغيرة بالمكونات الرئيسية.
- التحليل التمييزي الخطي (LDA). طريقة تبحث عن الميزات التي تفصل بين فئات البيانات المختلفة بشكل أفضل.
- تضمين الجوار العشوائي الموزع على شكل T (t-SNE). طريقة غير خطية وغير خاضعة للرقابة لتقليل الأبعاد تقوم بإنشاء توزيع احتمالي على أزواج من الكائنات ثم إنشاء توزيع احتمالي على النقاط في خريطة منخفضة الأبعاد.
تشمل الطرق الأخرى المستخدمة في تقليل الأبعاد ما يلي:
- التحليل العاملي.
- عالي علاقة منقي.
- UMAP.
- غابة عشوائية
فوائد وتحديات الحد من الأبعاد
إن تقليل الأبعاد له فوائد، مثل ما يلي:
- تحسين الأداء. يؤدي تقليل الأبعاد إلى تقليل تعقيد البيانات، مما يقلل البيانات غير ذات الصلة ويحسن الأداء.
- زيادة في التصور. يصعب تصور البيانات ذات الأبعاد العالية عند مقارنتها ببيانات الأبعاد المنخفضة/المبسطة.
- يمنع الإفراط في التجهيز. يمكن أن تؤدي البيانات ذات الأبعاد الأعلى إلى الإفراط في التجهيز في نماذج التعلم الآلي، وهو ما يساعد تقليل الأبعاد على منعه.
- انخفاض مساحة التخزين. يقلل من مساحة التخزين المطلوبة حيث تعمل العملية على إزالة البيانات غير ذات الصلة.
لكن هذه العملية لها جوانب سلبية، مثل ما يلي:
- فقدان البيانات. يجب ألا يؤدي تقليل الأبعاد بشكل مثالي إلى فقدان البيانات، حيث يمكن استرداد البيانات. ومع ذلك، قد تؤدي هذه العملية إلى فقدان بعض البيانات، مما قد يؤثر على كيفية عمل خوارزميات التدريب.
- القابلية للتفسير. قد يكون من الصعب فهم العلاقات بين الميزات الأصلية والأبعاد المخفضة.
- التعقيد الحسابي. قد تكون بعض طرق التخفيض أكثر كثافة من الناحية الحسابية من غيرها.
- القيم المتطرفة. إذا لم يتم الكشف عنها، قد تؤدي القيم المتطرفة للبيانات إلى حدوث مشكلة في عملية تقليل الأبعاد.
لتحسين أداء نموذج التعلم الآلي، يمكن أيضًا استخدام تقليل الأبعاد كخطوة لإعداد البيانات. يتعلم مزيد من خطوات إعداد البيانات ل مل.
تم آخر تحديث لهذا في سبتمبر 2023
مواصلة القراءة حول تقليل الأبعاد