کاهش ابعاد
کاهش ابعاد، دادههای با ابعاد بالا را با تعداد کمی از مختصات نمایش میدهد که مهمترین ساختار آنها را حفظ میکند و به تجسم، فشردهسازی و یادگیریهای بعدی کمک میکند.
Definition
کاهش ابعاد، دادهها را از فضای با ابعاد بالا به فضای با ابعاد پایینتر نگاشت میکند، در حالی که تا حد امکان اطلاعات مرتبط را حفظ میکند، یا از طریق پروجکشن خطی بر روی جهتهای حداکثر واریانس یا از طریق جاسازیهای غیرخطی که منیفولد زیربنایی دادهها را رعایت میکنند.
Scope
این موضوع شامل روشهای خطی مانند تحلیل مؤلفههای اصلی و تحلیل عاملی است که جهتهای بیشترین واریانس را پیدا میکنند، و روشهای یادگیری منیفولد غیرخطی و جاسازی که ساختار خمیده با ابعاد پایین را آشکار میکنند. این موضوع به نفرین ابعاد، خطای بازسازی، و تعادل بین حفظ هندسه جهانی و همسایگیهای محلی میپردازد.
Core questions
- چگونه میتوان بسیاری از ویژگیهای همبسته را با چند مورد خلاصه کرد؟
- تحلیل مؤلفههای اصلی چه چیزی را بهینه میکند؟
- چگونه روشهای غیرخطی منیفولدهای خمیده را بازیابی میکنند؟
- چه اطلاعاتی از دست میرود و چگونه این از دست رفتن اندازهگیری میشود؟
Key theories
- تحلیل مؤلفههای اصلی
- تحلیل مؤلفههای اصلی دادهها را بر روی جهتهای متعامد با بیشترین واریانس پروجکت میکند، بهترین تقریب خطی با ابعاد پایین را به معنای حداقل مربعات ارائه میدهد و الگوهای غالب تغییرات را آشکار میکند.
- مدلهای خطی نهفته احتمالی
- تحلیل مؤلفههای اصلی احتمالی و تحلیل عاملی، کاهش ابعاد را به عنوان یک مدل متغیر پنهان چارچوببندی میکنند، تفسیری مولد و روشی اصولی برای مدیریت نویز و دادههای گمشده ارائه میدهند.
- یادگیری منیفولد
- روشهای غیرخطی فرض میکنند که دادهها در نزدیکی یک منیفولد با ابعاد پایین قرار دارند و جاسازیهایی را میسازند که روابط همسایگی محلی را حفظ میکنند و ساختاری را به تصویر میکشند که پروجکشنهای خطی نمیتوانند.
Clinical relevance
کاهش ابعاد برای تجسم مجموعهدادههای پیچیده، فشردهسازی و حذف نویز از سیگنالها، و تولید ویژگیهای فشردهای که یادگیریهای بعدی را سریعتر و کمتر مستعد بیشبرازش میکنند، استفاده میشود؛ این روش مستقیماً به نفرین ابعاد میپردازد، که در آن با افزایش تعداد ویژگیها، فاصلهها و چگالیها بیمعنی میشوند.
History
تحلیل مؤلفههای اصلی توسط پیرسون معرفی شد و توسط هاتلینگ در اوایل قرن بیستم توسعه یافت. تحلیل عاملی در روانسنجی پدیدار شد، و از اوایل دهه ۲۰۰۰، روشهای یادگیری منیفولد غیرخطی و جاسازی همسایه، کاهش ابعاد را به دادههایی با ساختار خمیده با ابعاد پایین گسترش دادند و به ابزارهای استانداردی برای تجسم با ابعاد بالا تبدیل شدند.
Key figures
- Karl Pearson
- Harold Hotelling
- Trevor Hastie
Related topics
Seminal works
- hastie2009
- bishop2006
- murphy2012
Frequently asked questions
- تحلیل مؤلفههای اصلی دقیقاً چه چیزی را محاسبه میکند؟
- این روش محورهای جدیدی، یعنی مؤلفههای اصلی، را پیدا میکند که جهتهای متعامدی هستند که بر اساس میزان واریانس دادهها که جذب میکنند، مرتب شدهاند. حفظ چند مؤلفه برتر، بهترین تقریب خطی با ابعاد پایین دادهها را به معنای حداقل مربعات ارائه میدهد.
- چرا به جای استفاده از همه ویژگیها، ابعاد را کاهش میدهیم؟
- در ابعاد بالا، دادهها پراکنده میشوند و فاصلهها کمتر معنیدار میشوند، مدلها راحتتر بیشبرازش میشوند و محاسبات کند میشوند. کاهش به چند مختصات آموزنده میتواند تعمیمپذیری، سرعت و توانایی تجسم و تفسیر دادهها را بهبود بخشد.