Снижение размерности
Снижение размерности включает в себя многомерные методы, которые обобщают множество коррелированных переменных с помощью небольшого числа производных величин, сохраняя при этом как можно больше структуры и облегчая интерпретацию и визуализацию.
Definition
Снижение размерности — это построение низкоразмерного представления многомерных данных, которое сохраняет выбранный критерий информации, такой как дисперсия, ошибка реконструкции, попарное расстояние или межгрупповая корреляция.
Scope
Эта область охватывает методы, которые отображают многомерные наблюдения в пространство более низкой размерности. Она включает линейные проекции, максимизирующие дисперсию (анализ главных компонент), модели скрытых факторов для общей ковариации (факторный анализ), вложения, сохраняющие расстояния (многомерное шкалирование), и методы, которые совместно сокращают два набора переменных путем максимизации перекрестной корреляции (канонический корреляционный анализ). Акцент делается на линейных и классических подходах, составляющих основу дисциплины; нелинейное обучение многообразий рассматривается как расширение.
Sub-topics
Core questions
- Как большой набор коррелированных измерений можно заменить несколькими некоррелированными производными переменными с минимальной потерей информации?
- Когда критерием сокращения должны быть сохранение дисперсии, сохранение расстояния или объяснение скрытых факторов?
- Сколько измерений необходимо для адекватного представления данных?
- Как сокращенные представления поддерживают визуализацию, подавление шумов и последующее моделирование?
Key theories
- Линейная проекция, максимизирующая дисперсию
- Ведущие главные оси — это ортонормальные направления, которые последовательно захватывают максимальную дисперсию, что эквивалентно собственным векторам ковариационной матрицы и наилучшему низкоранговому приближению данных методом наименьших квадратов.
- Модель скрытых общих факторов
- Наблюдаемые корреляции между переменными объясняются меньшим числом ненаблюдаемых общих факторов плюс уникальность, специфичная для переменной, разлагая ковариационную структуру на общие и уникальные части.
Clinical relevance
Снижение размерности лежит в основе разведочного анализа данных, визуализации данных, подавления шумов сигнала, сжатия и предварительной обработки признаков для регрессии и классификации в различных областях — от геномики до эконометрики и анализа изображений.
History
Представление о максимизации дисперсии возникло с геометрической формулировки Пирсона 1901 года о линиях и плоскостях наилучшего соответствия и было развито в современный статистический метод главных компонент Хотеллингом в 1933 году. Факторный анализ развивался параллельно из психометрики, а затем последовали шкалирование на основе расстояний и каноническая корреляция, объединившись в единое рассмотрение снижения размерности, найденное в многомерных текстах середины двадцатого века.
Key figures
- Karl Pearson
- Harold Hotelling
Related topics
Seminal works
- pearson1901
- mardia1979
- johnson2007
Frequently asked questions
- В чем разница между снижением размерности и отбором переменных?
- Отбор переменных сохраняет подмножество исходных переменных, тогда как снижение размерности обычно конструирует новые производные переменные (такие как компоненты или факторы), которые являются комбинациями всех исходных.
- Всегда ли снижение размерности линейно?
- Нет. Классические основные методы являются линейными, но те же цели преследуются нелинейными методами обучения многообразий и вложений; линейные методы остаются фундаментальными и интерпретируемыми.