Описание данных и сводные статистические данные
Описание данных и сводные статистические данные — это раздел биостатистики, занимающийся организацией, сжатием и представлением совокупности наблюдений таким образом, чтобы их существенные особенности можно было сразу понять. Прежде чем предпринимать какие-либо выводы, исследователи описывают, как распределены данные, где они центрированы, насколько широко они распространены и какую форму они принимают, используя числовые сводки и графические отображения.
Definition
Описание данных и сводные статистические данные включают числовые и графические методы, используемые для характеристики центрального положения, дисперсии, формы распределения и структуры набора данных до и независимо от инференциального обобщения на популяцию.
Scope
Эта область ориентирует читателя на описательную сторону биостатистики: описательную статистику в целом, распределение и нормальность данных, меры центральной тенденции, меры изменчивости и визуализацию данных. Это справочный обзор того, как обобщаются данные о здоровье, а не предписание для анализа или клинических действий.
Sub-topics
Core questions
- Где находится центр данных и какая мера положения лучше всего его представляет?
- Насколько сильно варьируются наблюдения и как количественно оценить это рассеяние?
- Какова форма распределения и является ли оно приблизительно нормальным?
- Как можно отобразить данные, чтобы были видны их закономерности, асимметрия и выбросы?
Key concepts
- Описательная и инференциальная статистика
- Меры центральной тенденции (среднее значение, медиана, мода)
- Меры изменчивости (размах, дисперсия, стандартное отклонение, межквартильный диапазон)
- Форма распределения, асимметрия и эксцесс
- Нормальность и ее оценка
- Графические сводки (гистограммы, ящичковые диаграммы, диаграммы рассеяния)
- Исследовательский анализ данных
Mechanisms
Описание осуществляется путем сведения множества наблюдений к нескольким информативным величинам и изображениям. Мера положения (среднее значение, медиана или мода) суммирует, где находятся данные; мера дисперсии (стандартное отклонение, межквартильный диапазон, размах) суммирует, насколько далеко они рассеиваются вокруг этого положения; и выбор пары положения с дисперсией соответствует форме распределения, при этом медиана и межквартильный диапазон предпочтительны для асимметричных данных, а среднее значение и стандартное отклонение — для приблизительно симметричных данных. Графические отображения, такие как гистограммы и ящичковые диаграммы, выявляют форму, асимметрию и выбросы, которые могут быть скрыты отдельными числами, и вместе эти инструменты образуют исследовательский этап, предшествующий формальному выводу.
Clinical relevance
Почти каждое клиническое исследование, аудит и отчет по надзору начинаются с описательных сводок его участников и измерений, поэтому понимание этих сводок является фундаментальным для чтения литературы по наукам о здоровье. Эта область описывает, как характеризуются данные, и предназначена в качестве основы для оценки доказательств, а не как основа для индивидуальных диагностических или лечебных решений.
Epidemiology
Описательная сводка является первым аналитическим шагом в эпидемиологических и клинических исследованиях, используемым для характеристики исследуемых популяций, базовых таблиц и распределения воздействий и исходов до оценки ассоциаций. Выбор сводных мер и отображений напрямую влияет на прозрачность передачи данных исследования.
History
Числовое суммирование данных имеет глубокие корни в астрономии и демографической статистике XVIII и XIX веков, но современный описательный инструментарий был консолидирован в XX веке. Книга Джона Тьюки «Исследовательский анализ данных» (1977) переосмыслила описание как самостоятельную исследовательскую деятельность и популяризировала такие отображения, как ящичковая диаграмма, в то время как преподаватели статистики в области наук о здоровье впоследствии кодифицировали стандартные сводки, которые теперь публикуются в медицинских журналах.
Debates
- Когда среднее значение и стандартное отклонение должны уступать место медиане и межквартильному диапазону?
- Поскольку среднее значение и стандартное отклонение подвержены влиянию асимметрии и выбросов, существует давняя рекомендация суммировать ненормальные данные с помощью медианы и межквартильного диапазона; практический порог для переключения зависит от формы распределения и размера выборки.
Key figures
- John W. Tukey
- William S. Cleveland
- Douglas G. Altman
- J. Martin Bland
Related topics
Seminal works
- tukey-1977
- gupta-2019
Frequently asked questions
- В чем разница между описательной и инференциальной статистикой?
- Описательная статистика суммирует и отображает фактически собранные данные, тогда как инференциальная статистика использует эти данные для обобщения на более широкую популяцию. Описание предшествует и не делает никаких вероятностных утверждений, выходящих за рамки имеющейся выборки.
- Зачем описывать данные перед проведением тестов?
- Сводки и графики показывают форму распределения, разброс и любые выбросы или ошибки, которые определяют, насколько уместны последующие анализы и как следует интерпретировать их результаты.