ScholarGate
Ассистент

Описание данных и сводные статистические данные

Описание данных и сводные статистические данные — это раздел биостатистики, занимающийся организацией, сжатием и представлением совокупности наблюдений таким образом, чтобы их существенные особенности можно было сразу понять. Прежде чем предпринимать какие-либо выводы, исследователи описывают, как распределены данные, где они центрированы, насколько широко они распространены и какую форму они принимают, используя числовые сводки и графические отображения.

Найти тему в PaperMindСкороFind papers & topics
Tools & resources
Скачать слайды
Learn & explore
ВидеоСкоро

Definition

Описание данных и сводные статистические данные включают числовые и графические методы, используемые для характеристики центрального положения, дисперсии, формы распределения и структуры набора данных до и независимо от инференциального обобщения на популяцию.

Scope

Эта область ориентирует читателя на описательную сторону биостатистики: описательную статистику в целом, распределение и нормальность данных, меры центральной тенденции, меры изменчивости и визуализацию данных. Это справочный обзор того, как обобщаются данные о здоровье, а не предписание для анализа или клинических действий.

Sub-topics

Core questions

  • Где находится центр данных и какая мера положения лучше всего его представляет?
  • Насколько сильно варьируются наблюдения и как количественно оценить это рассеяние?
  • Какова форма распределения и является ли оно приблизительно нормальным?
  • Как можно отобразить данные, чтобы были видны их закономерности, асимметрия и выбросы?

Key concepts

  • Описательная и инференциальная статистика
  • Меры центральной тенденции (среднее значение, медиана, мода)
  • Меры изменчивости (размах, дисперсия, стандартное отклонение, межквартильный диапазон)
  • Форма распределения, асимметрия и эксцесс
  • Нормальность и ее оценка
  • Графические сводки (гистограммы, ящичковые диаграммы, диаграммы рассеяния)
  • Исследовательский анализ данных

Mechanisms

Описание осуществляется путем сведения множества наблюдений к нескольким информативным величинам и изображениям. Мера положения (среднее значение, медиана или мода) суммирует, где находятся данные; мера дисперсии (стандартное отклонение, межквартильный диапазон, размах) суммирует, насколько далеко они рассеиваются вокруг этого положения; и выбор пары положения с дисперсией соответствует форме распределения, при этом медиана и межквартильный диапазон предпочтительны для асимметричных данных, а среднее значение и стандартное отклонение — для приблизительно симметричных данных. Графические отображения, такие как гистограммы и ящичковые диаграммы, выявляют форму, асимметрию и выбросы, которые могут быть скрыты отдельными числами, и вместе эти инструменты образуют исследовательский этап, предшествующий формальному выводу.

Clinical relevance

Почти каждое клиническое исследование, аудит и отчет по надзору начинаются с описательных сводок его участников и измерений, поэтому понимание этих сводок является фундаментальным для чтения литературы по наукам о здоровье. Эта область описывает, как характеризуются данные, и предназначена в качестве основы для оценки доказательств, а не как основа для индивидуальных диагностических или лечебных решений.

Epidemiology

Описательная сводка является первым аналитическим шагом в эпидемиологических и клинических исследованиях, используемым для характеристики исследуемых популяций, базовых таблиц и распределения воздействий и исходов до оценки ассоциаций. Выбор сводных мер и отображений напрямую влияет на прозрачность передачи данных исследования.

History

Числовое суммирование данных имеет глубокие корни в астрономии и демографической статистике XVIII и XIX веков, но современный описательный инструментарий был консолидирован в XX веке. Книга Джона Тьюки «Исследовательский анализ данных» (1977) переосмыслила описание как самостоятельную исследовательскую деятельность и популяризировала такие отображения, как ящичковая диаграмма, в то время как преподаватели статистики в области наук о здоровье впоследствии кодифицировали стандартные сводки, которые теперь публикуются в медицинских журналах.

Debates

Когда среднее значение и стандартное отклонение должны уступать место медиане и межквартильному диапазону?
Поскольку среднее значение и стандартное отклонение подвержены влиянию асимметрии и выбросов, существует давняя рекомендация суммировать ненормальные данные с помощью медианы и межквартильного диапазона; практический порог для переключения зависит от формы распределения и размера выборки.

Key figures

  • John W. Tukey
  • William S. Cleveland
  • Douglas G. Altman
  • J. Martin Bland

Related topics

Seminal works

  • tukey-1977
  • gupta-2019

Frequently asked questions

В чем разница между описательной и инференциальной статистикой?
Описательная статистика суммирует и отображает фактически собранные данные, тогда как инференциальная статистика использует эти данные для обобщения на более широкую популяцию. Описание предшествует и не делает никаких вероятностных утверждений, выходящих за рамки имеющейся выборки.
Зачем описывать данные перед проведением тестов?
Сводки и графики показывают форму распределения, разброс и любые выбросы или ошибки, которые определяют, насколько уместны последующие анализы и как следует интерпретировать их результаты.

Methods for this concept

Related concepts