Анализ категориальных данных
Анализ категориальных данных — это раздел биостатистики, занимающийся данными, которые относятся к дискретным категориям, а не принимают непрерывные числовые значения, например, наличие или отсутствие заболевания, доброкачественная или злокачественная опухоль, назначение пациента в одну из нескольких групп лечения. Его центральным объектом является таблица сопряженности частот, а его методы проверяют и количественно оценивают связи между категориальными переменными, контролируя при этом другие переменные.
Definition
Анализ категориальных данных — это набор статистических методов для описания, проверки и моделирования связей между переменными, значения которых представляют собой счетчики в неупорядоченных или упорядоченных дискретных категориях, обычно организованных в виде таблиц сопряженности частот.
Scope
Эта область знакомит читателя с основными идеями, которые повторяются на тематических страницах ниже: как категориальные наблюдения располагаются в таблицы сопряженности, как проверяется связь в таблице (критерий хи-квадрат и точные критерии), как связь суммируется мерой эффекта (отношение рисков и отношение шансов) и как категориальная переменная, являющаяся смешивающим фактором, обрабатывается путем стратификации (методы Мантеля-Хензеля). Эти методы представлены как методологические инструменты для чтения и создания медицинских исследований, а не как клинические рекомендации.
Sub-topics
Core questions
- Существует ли связь между двумя категориальными переменными, или они независимы?
- Насколько велика связь, выраженная как отношение или разница рисков или шансов?
- Сохраняется ли очевидная связь после стратификации по третьей категориальной переменной, или она искажается или модифицируется ею?
- Когда количество ячеек мало, какая точная процедура заменяет аппроксимацию для больших выборок?
Key concepts
- Таблица сопряженности частот
- Независимость категориальных переменных
- Критерий хи-квадрат для проверки ассоциации
- Точные критерии для разреженных таблиц
- Меры эффекта: отношение рисков и отношение шансов
- Стратификация и оценка Мантеля-Хензеля
- Смешивающие факторы и модификация эффекта по стратам
- Лог-линейные и логистические модели для таблиц
Mechanisms
Категориальные наблюдения перекрестно классифицируются в таблицу, ячейки которой содержат частоты. Проверка ассоциации сравнивает наблюдаемые частоты ячеек с ожидаемыми, если бы переменные строк и столбцов были независимы: статистика хи-квадрат Пирсона, асимптотически обоснованная уточнением Фишером ее степеней свободы, суммирует квадраты стандартизированных различий, в то время как точные критерии перечисляют условное распределение таблиц, когда счетчики слишком малы для аппроксимации. Сила ассоциации затем суммируется мерой эффекта, полученной из таблицы — отношением рисков или отношением шансов. Когда третья переменная угрожает исказить ассоциацию, данные разделяются на страты, определяемые этой переменной, и формируется объединенная оценка по стратам; процедура Мантеля-Хензеля обеспечивает такую стратифицированную проверку и суммарную оценку. Эти части обобщаются в лог-линейные и логистические регрессионные модели, которые обрабатывают несколько категориальных предикторов одновременно.
Clinical relevance
Большинство диагностических, прогностических данных и данных о факторах риска в науках о здоровье сообщаются как ассоциации между категориальными переменными — подвергшиеся воздействию против не подвергшихся воздействию, событие против отсутствия события — поэтому методы в этой области лежат в основе того, как эти данные генерируются и оцениваются. Они описывают, как измеряются и проверяются ассоциации; они являются инструментами для интерпретации исследований, а не основой для индивидуальных диагностических или лечебных решений.
Epidemiology
Методы таблиц сопряженности являются повседневным механизмом эпидемиологии: когортные, случай-контроль и поперечные исследования в простейшем виде сводятся к таблице 2x2, сопоставляющей воздействие с исходом, а стратифицированный (Мантель-Хензель) анализ является классическим немодельным подходом к смешивающим факторам до регрессии. Те же методы повторяются в клинических испытаниях, сообщающих о бинарных конечных точках, и при оценке диагностических тестов.
History
Область началась со статистики хи-квадрат Карла Пирсона на рубеже двадцатого века и коррекции Фишером в 1922 году ее степеней свободы для таблиц сопряженности, за которой последовал точный критерий Фишера для малых выборок. Эпидемиология середины века предоставила основу для измерения эффекта — аргумент Корнфилда об отношении шансов и стратифицированную оценку Мантеля-Хензеля 1959 года — а конец двадцатого века объединил эти методы в рамках обобщенной линейной модели, синтезированной в учебнике Агрести.
Key figures
- Karl Pearson
- Ronald A. Fisher
- Jerome Cornfield
- Nathan Mantel
- William Haenszel
- Alan Agresti
- Joseph Fleiss
Related topics
Seminal works
- fisher-1922
- mantel-haenszel-1959
- agresti-2013
Frequently asked questions
- Что делает данные «категориальными»?
- Данные являются категориальными, когда каждое наблюдение попадает в один из набора дискретных классов — таких как больной/здоровый или группа лечения A/B/C — а не принимает измеренное числовое значение; анализ работает с количеством наблюдений в каждом классе.
- Чем эта область отличается от регрессии для непрерывных исходов?
- Результатом здесь является категория или количество, а не непрерывное измерение, поэтому методы сосредоточены на таблицах сопряженности, отношениях рисков и шансов, а также на таких моделях, как логистическая и лог-линейная регрессия, а не на средних значениях и обычной линейной регрессии.