ScholarGate
Ассистент

Анализ категориальных данных

Анализ категориальных данных — это раздел биостатистики, занимающийся данными, которые относятся к дискретным категориям, а не принимают непрерывные числовые значения, например, наличие или отсутствие заболевания, доброкачественная или злокачественная опухоль, назначение пациента в одну из нескольких групп лечения. Его центральным объектом является таблица сопряженности частот, а его методы проверяют и количественно оценивают связи между категориальными переменными, контролируя при этом другие переменные.

Найти тему в PaperMindСкороFind papers & topics
Tools & resources
Скачать слайды
Learn & explore
ВидеоСкоро

Definition

Анализ категориальных данных — это набор статистических методов для описания, проверки и моделирования связей между переменными, значения которых представляют собой счетчики в неупорядоченных или упорядоченных дискретных категориях, обычно организованных в виде таблиц сопряженности частот.

Scope

Эта область знакомит читателя с основными идеями, которые повторяются на тематических страницах ниже: как категориальные наблюдения располагаются в таблицы сопряженности, как проверяется связь в таблице (критерий хи-квадрат и точные критерии), как связь суммируется мерой эффекта (отношение рисков и отношение шансов) и как категориальная переменная, являющаяся смешивающим фактором, обрабатывается путем стратификации (методы Мантеля-Хензеля). Эти методы представлены как методологические инструменты для чтения и создания медицинских исследований, а не как клинические рекомендации.

Sub-topics

Core questions

  • Существует ли связь между двумя категориальными переменными, или они независимы?
  • Насколько велика связь, выраженная как отношение или разница рисков или шансов?
  • Сохраняется ли очевидная связь после стратификации по третьей категориальной переменной, или она искажается или модифицируется ею?
  • Когда количество ячеек мало, какая точная процедура заменяет аппроксимацию для больших выборок?

Key concepts

  • Таблица сопряженности частот
  • Независимость категориальных переменных
  • Критерий хи-квадрат для проверки ассоциации
  • Точные критерии для разреженных таблиц
  • Меры эффекта: отношение рисков и отношение шансов
  • Стратификация и оценка Мантеля-Хензеля
  • Смешивающие факторы и модификация эффекта по стратам
  • Лог-линейные и логистические модели для таблиц

Mechanisms

Категориальные наблюдения перекрестно классифицируются в таблицу, ячейки которой содержат частоты. Проверка ассоциации сравнивает наблюдаемые частоты ячеек с ожидаемыми, если бы переменные строк и столбцов были независимы: статистика хи-квадрат Пирсона, асимптотически обоснованная уточнением Фишером ее степеней свободы, суммирует квадраты стандартизированных различий, в то время как точные критерии перечисляют условное распределение таблиц, когда счетчики слишком малы для аппроксимации. Сила ассоциации затем суммируется мерой эффекта, полученной из таблицы — отношением рисков или отношением шансов. Когда третья переменная угрожает исказить ассоциацию, данные разделяются на страты, определяемые этой переменной, и формируется объединенная оценка по стратам; процедура Мантеля-Хензеля обеспечивает такую стратифицированную проверку и суммарную оценку. Эти части обобщаются в лог-линейные и логистические регрессионные модели, которые обрабатывают несколько категориальных предикторов одновременно.

Clinical relevance

Большинство диагностических, прогностических данных и данных о факторах риска в науках о здоровье сообщаются как ассоциации между категориальными переменными — подвергшиеся воздействию против не подвергшихся воздействию, событие против отсутствия события — поэтому методы в этой области лежат в основе того, как эти данные генерируются и оцениваются. Они описывают, как измеряются и проверяются ассоциации; они являются инструментами для интерпретации исследований, а не основой для индивидуальных диагностических или лечебных решений.

Epidemiology

Методы таблиц сопряженности являются повседневным механизмом эпидемиологии: когортные, случай-контроль и поперечные исследования в простейшем виде сводятся к таблице 2x2, сопоставляющей воздействие с исходом, а стратифицированный (Мантель-Хензель) анализ является классическим немодельным подходом к смешивающим факторам до регрессии. Те же методы повторяются в клинических испытаниях, сообщающих о бинарных конечных точках, и при оценке диагностических тестов.

History

Область началась со статистики хи-квадрат Карла Пирсона на рубеже двадцатого века и коррекции Фишером в 1922 году ее степеней свободы для таблиц сопряженности, за которой последовал точный критерий Фишера для малых выборок. Эпидемиология середины века предоставила основу для измерения эффекта — аргумент Корнфилда об отношении шансов и стратифицированную оценку Мантеля-Хензеля 1959 года — а конец двадцатого века объединил эти методы в рамках обобщенной линейной модели, синтезированной в учебнике Агрести.

Key figures

  • Karl Pearson
  • Ronald A. Fisher
  • Jerome Cornfield
  • Nathan Mantel
  • William Haenszel
  • Alan Agresti
  • Joseph Fleiss

Related topics

Seminal works

  • fisher-1922
  • mantel-haenszel-1959
  • agresti-2013

Frequently asked questions

Что делает данные «категориальными»?
Данные являются категориальными, когда каждое наблюдение попадает в один из набора дискретных классов — таких как больной/здоровый или группа лечения A/B/C — а не принимает измеренное числовое значение; анализ работает с количеством наблюдений в каждом классе.
Чем эта область отличается от регрессии для непрерывных исходов?
Результатом здесь является категория или количество, а не непрерывное измерение, поэтому методы сосредоточены на таблицах сопряженности, отношениях рисков и шансов, а также на таких моделях, как логистическая и лог-линейная регрессия, а не на средних значениях и обычной линейной регрессии.

Methods for this concept

Related concepts