تحلیل مؤلفههای اصلی دقیقاً چه چیزی را محاسبه میکند؟

این روش محورهای جدیدی، یعنی مؤلفههای اصلی، را پیدا میکند که جهتهای متعامدی هستند که بر اساس میزان واریانس دادهها که جذب میکنند، مرتب شدهاند. حفظ چند مؤلفه برتر، بهترین تقریب خطی با ابعاد پایین دادهها را به معنای حداقل مربعات ارائه میدهد.

چرا به جای استفاده از همه ویژگیها، ابعاد را کاهش میدهیم؟

در ابعاد بالا، دادهها پراکنده میشوند و فاصلهها کمتر معنیدار میشوند، مدلها راحتتر بیشبرازش میشوند و محاسبات کند میشوند. کاهش به چند مختصات آموزنده میتواند تعمیمپذیری، سرعت و توانایی تجسم و تفسیر دادهها را بهبود بخشد.

کاهش ابعاد

کاهش ابعاد، داده‌های با ابعاد بالا را با تعداد کمی از مختصات نمایش می‌دهد که مهم‌ترین ساختار آن‌ها را حفظ می‌کند و به تجسم، فشرده‌سازی و یادگیری‌های بعدی کمک می‌کند.

یافتن موضوع با PaperMindبه‌زودیFind papers & topics

Tools & resources

دریافت اسلایدها

Learn & explore

ویدیوبه‌زودی

Definition

کاهش ابعاد، داده‌ها را از فضای با ابعاد بالا به فضای با ابعاد پایین‌تر نگاشت می‌کند، در حالی که تا حد امکان اطلاعات مرتبط را حفظ می‌کند، یا از طریق پروجکشن خطی بر روی جهت‌های حداکثر واریانس یا از طریق جاسازی‌های غیرخطی که منیفولد زیربنایی داده‌ها را رعایت می‌کنند.

Scope

این موضوع شامل روش‌های خطی مانند تحلیل مؤلفه‌های اصلی و تحلیل عاملی است که جهت‌های بیشترین واریانس را پیدا می‌کنند، و روش‌های یادگیری منیفولد غیرخطی و جاسازی که ساختار خمیده با ابعاد پایین را آشکار می‌کنند. این موضوع به نفرین ابعاد، خطای بازسازی، و تعادل بین حفظ هندسه جهانی و همسایگی‌های محلی می‌پردازد.

Core questions

چگونه می‌توان بسیاری از ویژگی‌های همبسته را با چند مورد خلاصه کرد؟
تحلیل مؤلفه‌های اصلی چه چیزی را بهینه می‌کند؟
چگونه روش‌های غیرخطی منیفولدهای خمیده را بازیابی می‌کنند؟
چه اطلاعاتی از دست می‌رود و چگونه این از دست رفتن اندازه‌گیری می‌شود؟

Key theories

تحلیل مؤلفه‌های اصلی: تحلیل مؤلفه‌های اصلی داده‌ها را بر روی جهت‌های متعامد با بیشترین واریانس پروجکت می‌کند، بهترین تقریب خطی با ابعاد پایین را به معنای حداقل مربعات ارائه می‌دهد و الگوهای غالب تغییرات را آشکار می‌کند.
مدل‌های خطی نهفته احتمالی: تحلیل مؤلفه‌های اصلی احتمالی و تحلیل عاملی، کاهش ابعاد را به عنوان یک مدل متغیر پنهان چارچوب‌بندی می‌کنند، تفسیری مولد و روشی اصولی برای مدیریت نویز و داده‌های گمشده ارائه می‌دهند.
یادگیری منیفولد: روش‌های غیرخطی فرض می‌کنند که داده‌ها در نزدیکی یک منیفولد با ابعاد پایین قرار دارند و جاسازی‌هایی را می‌سازند که روابط همسایگی محلی را حفظ می‌کنند و ساختاری را به تصویر می‌کشند که پروجکشن‌های خطی نمی‌توانند.

Clinical relevance

کاهش ابعاد برای تجسم مجموعه‌داده‌های پیچیده، فشرده‌سازی و حذف نویز از سیگنال‌ها، و تولید ویژگی‌های فشرده‌ای که یادگیری‌های بعدی را سریع‌تر و کمتر مستعد بیش‌برازش می‌کنند، استفاده می‌شود؛ این روش مستقیماً به نفرین ابعاد می‌پردازد، که در آن با افزایش تعداد ویژگی‌ها، فاصله‌ها و چگالی‌ها بی‌معنی می‌شوند.

History

تحلیل مؤلفه‌های اصلی توسط پیرسون معرفی شد و توسط هاتلینگ در اوایل قرن بیستم توسعه یافت. تحلیل عاملی در روان‌سنجی پدیدار شد، و از اوایل دهه ۲۰۰۰، روش‌های یادگیری منیفولد غیرخطی و جاسازی همسایه، کاهش ابعاد را به داده‌هایی با ساختار خمیده با ابعاد پایین گسترش دادند و به ابزارهای استانداردی برای تجسم با ابعاد بالا تبدیل شدند.

Key figures

Karl Pearson
Harold Hotelling
Trevor Hastie

Seminal works

hastie2009
bishop2006
murphy2012

Frequently asked questions

تحلیل مؤلفه‌های اصلی دقیقاً چه چیزی را محاسبه می‌کند؟: این روش محورهای جدیدی، یعنی مؤلفه‌های اصلی، را پیدا می‌کند که جهت‌های متعامدی هستند که بر اساس میزان واریانس داده‌ها که جذب می‌کنند، مرتب شده‌اند. حفظ چند مؤلفه برتر، بهترین تقریب خطی با ابعاد پایین داده‌ها را به معنای حداقل مربعات ارائه می‌دهد.
چرا به جای استفاده از همه ویژگی‌ها، ابعاد را کاهش می‌دهیم؟: در ابعاد بالا، داده‌ها پراکنده می‌شوند و فاصله‌ها کمتر معنی‌دار می‌شوند، مدل‌ها راحت‌تر بیش‌برازش می‌شوند و محاسبات کند می‌شوند. کاهش به چند مختصات آموزنده می‌تواند تعمیم‌پذیری، سرعت و توانایی تجسم و تفسیر داده‌ها را بهبود بخشد.