Что делает данные «категориальными»?

Данные являются категориальными, когда каждое наблюдение попадает в один из набора дискретных классов — таких как больной/здоровый или группа лечения A/B/C — а не принимает измеренное числовое значение; анализ работает с количеством наблюдений в каждом классе.

Чем эта область отличается от регрессии для непрерывных исходов?

Результатом здесь является категория или количество, а не непрерывное измерение, поэтому методы сосредоточены на таблицах сопряженности, отношениях рисков и шансов, а также на таких моделях, как логистическая и лог-линейная регрессия, а не на средних значениях и обычной линейной регрессии.

Анализ категориальных данных

Анализ категориальных данных — это раздел биостатистики, занимающийся данными, которые относятся к дискретным категориям, а не принимают непрерывные числовые значения, например, наличие или отсутствие заболевания, доброкачественная или злокачественная опухоль, назначение пациента в одну из нескольких групп лечения. Его центральным объектом является таблица сопряженности частот, а его методы проверяют и количественно оценивают связи между категориальными переменными, контролируя при этом другие переменные.

Найти тему в PaperMindСкороFind papers & topics

Tools & resources

Скачать слайды

Learn & explore

ВидеоСкоро

Definition

Анализ категориальных данных — это набор статистических методов для описания, проверки и моделирования связей между переменными, значения которых представляют собой счетчики в неупорядоченных или упорядоченных дискретных категориях, обычно организованных в виде таблиц сопряженности частот.

Scope

Эта область знакомит читателя с основными идеями, которые повторяются на тематических страницах ниже: как категориальные наблюдения располагаются в таблицы сопряженности, как проверяется связь в таблице (критерий хи-квадрат и точные критерии), как связь суммируется мерой эффекта (отношение рисков и отношение шансов) и как категориальная переменная, являющаяся смешивающим фактором, обрабатывается путем стратификации (методы Мантеля-Хензеля). Эти методы представлены как методологические инструменты для чтения и создания медицинских исследований, а не как клинические рекомендации.

Sub-topics

Core questions

Существует ли связь между двумя категориальными переменными, или они независимы?
Насколько велика связь, выраженная как отношение или разница рисков или шансов?
Сохраняется ли очевидная связь после стратификации по третьей категориальной переменной, или она искажается или модифицируется ею?
Когда количество ячеек мало, какая точная процедура заменяет аппроксимацию для больших выборок?

Key concepts

Таблица сопряженности частот
Независимость категориальных переменных
Критерий хи-квадрат для проверки ассоциации
Точные критерии для разреженных таблиц
Меры эффекта: отношение рисков и отношение шансов
Стратификация и оценка Мантеля-Хензеля
Смешивающие факторы и модификация эффекта по стратам
Лог-линейные и логистические модели для таблиц

Mechanisms

Категориальные наблюдения перекрестно классифицируются в таблицу, ячейки которой содержат частоты. Проверка ассоциации сравнивает наблюдаемые частоты ячеек с ожидаемыми, если бы переменные строк и столбцов были независимы: статистика хи-квадрат Пирсона, асимптотически обоснованная уточнением Фишером ее степеней свободы, суммирует квадраты стандартизированных различий, в то время как точные критерии перечисляют условное распределение таблиц, когда счетчики слишком малы для аппроксимации. Сила ассоциации затем суммируется мерой эффекта, полученной из таблицы — отношением рисков или отношением шансов. Когда третья переменная угрожает исказить ассоциацию, данные разделяются на страты, определяемые этой переменной, и формируется объединенная оценка по стратам; процедура Мантеля-Хензеля обеспечивает такую стратифицированную проверку и суммарную оценку. Эти части обобщаются в лог-линейные и логистические регрессионные модели, которые обрабатывают несколько категориальных предикторов одновременно.

Clinical relevance

Большинство диагностических, прогностических данных и данных о факторах риска в науках о здоровье сообщаются как ассоциации между категориальными переменными — подвергшиеся воздействию против не подвергшихся воздействию, событие против отсутствия события — поэтому методы в этой области лежат в основе того, как эти данные генерируются и оцениваются. Они описывают, как измеряются и проверяются ассоциации; они являются инструментами для интерпретации исследований, а не основой для индивидуальных диагностических или лечебных решений.

Epidemiology

Методы таблиц сопряженности являются повседневным механизмом эпидемиологии: когортные, случай-контроль и поперечные исследования в простейшем виде сводятся к таблице 2x2, сопоставляющей воздействие с исходом, а стратифицированный (Мантель-Хензель) анализ является классическим немодельным подходом к смешивающим факторам до регрессии. Те же методы повторяются в клинических испытаниях, сообщающих о бинарных конечных точках, и при оценке диагностических тестов.

History

Область началась со статистики хи-квадрат Карла Пирсона на рубеже двадцатого века и коррекции Фишером в 1922 году ее степеней свободы для таблиц сопряженности, за которой последовал точный критерий Фишера для малых выборок. Эпидемиология середины века предоставила основу для измерения эффекта — аргумент Корнфилда об отношении шансов и стратифицированную оценку Мантеля-Хензеля 1959 года — а конец двадцатого века объединил эти методы в рамках обобщенной линейной модели, синтезированной в учебнике Агрести.

Key figures

Karl Pearson
Ronald A. Fisher
Jerome Cornfield
Nathan Mantel
William Haenszel
Alan Agresti
Joseph Fleiss

Seminal works

fisher-1922
mantel-haenszel-1959
agresti-2013

Frequently asked questions

Что делает данные «категориальными»?: Данные являются категориальными, когда каждое наблюдение попадает в один из набора дискретных классов — таких как больной/здоровый или группа лечения A/B/C — а не принимает измеренное числовое значение; анализ работает с количеством наблюдений в каждом классе.
Чем эта область отличается от регрессии для непрерывных исходов?: Результатом здесь является категория или количество, а не непрерывное измерение, поэтому методы сосредоточены на таблицах сопряженности, отношениях рисков и шансов, а также на таких моделях, как логистическая и лог-линейная регрессия, а не на средних значениях и обычной линейной регрессии.