В чем разница между снижением размерности и отбором переменных?

Отбор переменных сохраняет подмножество исходных переменных, тогда как снижение размерности обычно конструирует новые производные переменные (такие как компоненты или факторы), которые являются комбинациями всех исходных.

Всегда ли снижение размерности линейно?

Нет. Классические основные методы являются линейными, но те же цели преследуются нелинейными методами обучения многообразий и вложений; линейные методы остаются фундаментальными и интерпретируемыми.

Снижение размерности

Снижение размерности включает в себя многомерные методы, которые обобщают множество коррелированных переменных с помощью небольшого числа производных величин, сохраняя при этом как можно больше структуры и облегчая интерпретацию и визуализацию.

Найти тему в PaperMindСкороFind papers & topics

Tools & resources

Скачать слайды

Learn & explore

ВидеоСкоро

Definition

Снижение размерности — это построение низкоразмерного представления многомерных данных, которое сохраняет выбранный критерий информации, такой как дисперсия, ошибка реконструкции, попарное расстояние или межгрупповая корреляция.

Scope

Эта область охватывает методы, которые отображают многомерные наблюдения в пространство более низкой размерности. Она включает линейные проекции, максимизирующие дисперсию (анализ главных компонент), модели скрытых факторов для общей ковариации (факторный анализ), вложения, сохраняющие расстояния (многомерное шкалирование), и методы, которые совместно сокращают два набора переменных путем максимизации перекрестной корреляции (канонический корреляционный анализ). Акцент делается на линейных и классических подходах, составляющих основу дисциплины; нелинейное обучение многообразий рассматривается как расширение.

Sub-topics

Core questions

Как большой набор коррелированных измерений можно заменить несколькими некоррелированными производными переменными с минимальной потерей информации?
Когда критерием сокращения должны быть сохранение дисперсии, сохранение расстояния или объяснение скрытых факторов?
Сколько измерений необходимо для адекватного представления данных?
Как сокращенные представления поддерживают визуализацию, подавление шумов и последующее моделирование?

Key theories

Линейная проекция, максимизирующая дисперсию: Ведущие главные оси — это ортонормальные направления, которые последовательно захватывают максимальную дисперсию, что эквивалентно собственным векторам ковариационной матрицы и наилучшему низкоранговому приближению данных методом наименьших квадратов.
Модель скрытых общих факторов: Наблюдаемые корреляции между переменными объясняются меньшим числом ненаблюдаемых общих факторов плюс уникальность, специфичная для переменной, разлагая ковариационную структуру на общие и уникальные части.

Clinical relevance

Снижение размерности лежит в основе разведочного анализа данных, визуализации данных, подавления шумов сигнала, сжатия и предварительной обработки признаков для регрессии и классификации в различных областях — от геномики до эконометрики и анализа изображений.

History

Представление о максимизации дисперсии возникло с геометрической формулировки Пирсона 1901 года о линиях и плоскостях наилучшего соответствия и было развито в современный статистический метод главных компонент Хотеллингом в 1933 году. Факторный анализ развивался параллельно из психометрики, а затем последовали шкалирование на основе расстояний и каноническая корреляция, объединившись в единое рассмотрение снижения размерности, найденное в многомерных текстах середины двадцатого века.

Key figures

Karl Pearson
Harold Hotelling

Seminal works

pearson1901
mardia1979
johnson2007

Frequently asked questions

В чем разница между снижением размерности и отбором переменных?: Отбор переменных сохраняет подмножество исходных переменных, тогда как снижение размерности обычно конструирует новые производные переменные (такие как компоненты или факторы), которые являются комбинациями всех исходных.
Всегда ли снижение размерности линейно?: Нет. Классические основные методы являются линейными, но те же цели преследуются нелинейными методами обучения многообразий и вложений; линейные методы остаются фундаментальными и интерпретируемыми.