تقليل الأبعاد
يمثل تقليل الأبعاد البيانات عالية الأبعاد بعدد قليل من الإحداثيات التي تحافظ على أهم بنيتها، مما يساعد في التصور والضغط والتعلم اللاحق.
Definition
يقوم تقليل الأبعاد برسم خرائط للبيانات من فضاء عالي الأبعاد إلى فضاء أقل أبعادًا مع الاحتفاظ بأكبر قدر ممكن من المعلومات ذات الصلة، إما عن طريق الإسقاط الخطي على اتجاهات التباين الأقصى أو عن طريق التضمينات غير الخطية التي تحترم المتشعب الأساسي للبيانات.
Scope
يغطي هذا الموضوع الأساليب الخطية مثل تحليل المكونات الرئيسية والتحليل العاملي التي تجد اتجاهات التباين الأكبر، وأساليب تعلم وتضمين المتشعبات غير الخطية التي تكشف عن بنية منحنية منخفضة الأبعاد. ويتناول لعنة الأبعاد، وخطأ إعادة البناء، والمفاضلة بين الحفاظ على الهندسة العالمية والأحياء المحلية.
Core questions
- كيف يمكن تلخيص العديد من الميزات المترابطة بعدد قليل؟
- ما الذي يحسنه تحليل المكونات الرئيسية؟
- كيف تستعيد الأساليب غير الخطية المتشعبات المنحنية؟
- ما هي المعلومات التي تُفقد وكيف يُقاس هذا الفقدان؟
Key theories
- تحليل المكونات الرئيسية
- يقوم تحليل المكونات الرئيسية بإسقاط البيانات على الاتجاهات المتعامدة ذات التباين الأكبر، مما يوفر أفضل تقريب خطي منخفض الأبعاد بمعنى المربعات الصغرى ويكشف عن أنماط التباين السائدة.
- النماذج الخطية الكامنة الاحتمالية
- يؤطر تحليل المكونات الرئيسية الاحتمالي والتحليل العاملي تقليل الأبعاد كنموذج متغير كامن، مما يوفر تفسيرًا توليديًا وطريقة مبدئية للتعامل مع الضوضاء والبيانات المفقودة.
- تعلم المتشعبات
- تفترض الأساليب غير الخطية أن البيانات تقع بالقرب من متشعب منخفض الأبعاد وتبني تضمينات تحافظ على علاقات الجوار المحلية، وتلتقط بنية لا تستطيع الإسقاطات الخطية التقاطها.
Clinical relevance
يُستخدم تقليل الأبعاد لتصور مجموعات البيانات المعقدة، ولضغط الإشارات وإزالة الضوضاء منها، ولإنتاج ميزات مدمجة تجعل التعلم اللاحق أسرع وأقل عرضة للتجاوز (overfitting)؛ ويتناول بشكل مباشر لعنة الأبعاد، حيث تصبح المسافات والكثافات غير مفيدة مع تزايد عدد الميزات.
History
قدم بيرسون تحليل المكونات الرئيسية وطوره هوتيلينج في أوائل القرن العشرين. ظهر التحليل العاملي في القياس النفسي، ومنذ أوائل العقد الأول من القرن الحادي والعشرين، وسعت أساليب تعلم المتشعبات غير الخطية وتضمين الجيران تقليل الأبعاد لتشمل البيانات ذات البنية المنحنية منخفضة الأبعاد، لتصبح أدوات قياسية للتصور عالي الأبعاد.
Key figures
- Karl Pearson
- Harold Hotelling
- Trevor Hastie
Related topics
Seminal works
- hastie2009
- bishop2006
- murphy2012
Frequently asked questions
- ماذا يحسب تحليل المكونات الرئيسية بالفعل؟
- يجد محاور جديدة، وهي المكونات الرئيسية، وهي اتجاهات متعامدة مرتبة حسب مقدار التباين الذي تلتقطه من البيانات. الاحتفاظ بالمكونات القليلة الأولى يعطي أفضل تقريب خطي منخفض الأبعاد للبيانات بمعنى المربعات الصغرى.
- لماذا يتم تقليل الأبعاد بدلاً من استخدام جميع الميزات؟
- في الأبعاد العالية، تصبح البيانات متفرقة والمسافات أقل معنى، وتتجاوز النماذج (overfit) بسهولة أكبر، ويتباطأ الحساب. يمكن أن يؤدي التخفيض إلى عدد قليل من الإحداثيات المفيدة إلى تحسين التعميم والسرعة والقدرة على تصور البيانات وتفسيرها.