Статистическая оценка и вывод
Статистическая оценка и вывод — это раздел биостатистики, занимающийся получением заключений о популяции на основе конечной, вариабельной выборки. Он предоставляет формальный аппарат для двух взаимодополняющих задач: оценки неизвестных величин (таких как среднее значение, доля или эффект лечения) с указанием предела неопределенности, а также проверки совместимости наблюдаемых данных с выдвинутой гипотезой. Вместе эти инструменты превращают необработанные данные исследования в количественные, учитывающие неопределенность утверждения о мире.
Definition
Статистический вывод — это процесс использования выборки наблюдений вместе с вероятностной моделью возникновения этих наблюдений для оценки параметров популяции и количественной оценки неопределенности или проверки гипотез относительно этих параметров.
Scope
Эта область знакомит читателя с основными идеями, которые постоянно встречаются в исследованиях в области здравоохранения: точечная и интервальная оценка, доверительные интервалы, концепция проверки гипотез, два вида ошибок принятия решений, которые она может порождать, а также статистическая мощность и размер выборки, необходимые для надежного обнаружения эффектов. Эти темы рассматриваются как методологические справочные материалы для оценки и разработки исследований, а не как правила принятия клинических решений.
Sub-topics
Core questions
- Какова наша наилучшая единичная оценка неизвестной величины популяции и насколько она неопределенна?
- Какой диапазон значений правдоподобно согласуется с наблюдаемыми данными?
- Совместимы ли данные с указанной нулевой гипотезой или они предоставляют доказательства против нее?
- Какой размер выборки необходим для обнаружения эффекта заданной величины с приемлемыми показателями ошибок?
Key concepts
- Параметр популяции против выборочной статистики
- Выборочное распределение и стандартная ошибка
- Точечная оценка
- Интервальная оценка и доверительный интервал
- Нулевая и альтернативная гипотезы
- P-значение
- Ошибка I и II рода
- Статистическая мощность
- Определение размера выборки
Key theories
- Теория принятия решений Неймана-Пирсона
- Сформулировала проверку гипотез как выбор между двумя гипотезами, регулируемый контролируемыми долгосрочными показателями ошибок, вводя формальные понятия ошибок I и II рода и наиболее мощного критерия для фиксированного уровня значимости.
- Парадигма оценки с учетом неопределенности
- Утверждает, что представление оценок эффекта с доверительными интервалами передает больше информации, чем простое заключение о значимости, смещая акцент с вопроса о существовании эффекта на то, насколько он правдоподобно велик.
Mechanisms
Вывод основывается на вероятностной модели, связывающей данные с неизвестными параметрами, и на идее выборочного распределения: разброса оценок, который возник бы при повторных выборках. Оценка суммирует это выборочное распределение как точечную оценку плюс меру точности (стандартную ошибку), которая затем преобразуется в интервал. Проверка гипотез переформулирует то же распределение как проблему принятия решения, сравнивая наблюдаемые данные с тем, что предсказывает нулевая гипотеза, и контролируя вероятность ложноположительных и ложноотрицательных выводов. P-значения и доверительные интервалы — это две стороны одного и того же базового расчета, и оба часто неверно истолковываются, поэтому важна тщательная формулировка.
Clinical relevance
Почти каждое количественное заключение в медицинской литературе — отношение рисков, средняя разница, показатель диагностической точности — является выводным утверждением, несущим неопределенность. Поэтому понимание оценки и вывода имеет центральное значение для чтения и оценки доказательств, а также для суждения о том, является ли сообщаемый эффект точным, правдоподобным и адекватно обоснованным. Эта область описывает, как такие доказательства генерируются и интерпретируются; она не является основой для индивидуальных диагностических или лечебных решений.
Evidence & guidelines
Профессиональные организации выпустили четкие рекомендации по ограничению распространенного неправомерного использования методов статистического вывода. Заявление Американской статистической ассоциации 2016 года о p-значениях изложило принципы их правильной интерпретации, а сопутствующее руководство Гринленда и коллег каталогизирует двадцать пять частых неверных толкований p-значений, доверительных интервалов и мощности. Более ранний призыв Гарднера и Альтмана отдавать предпочтение доверительным интервалам перед голыми p-значениями сформировал правила отчетности в медицинских журналах.
History
Современный вывод вырос из двух отчасти конкурирующих традиций начала двадцатого века: проверки значимости и p-значений Фишера, а также теоретико-решающей концепции проверки гипотез, которую Нейман и Пирсон формализовали в 1933 году. Доверительный интервал, также в значительной степени разработанный Нейманом, предоставил дополнительный, ориентированный на оценку подход. В течение второй половины двадцатого века статистики и эпидемиологи все чаще критиковали механическую зависимость от порогов значимости, что привело к официальным предостерегающим заявлениям статистического сообщества в 2010-х годах.
Debates
- Проверка значимости против оценки
- Давняя дискуссия ставит под сомнение, вводят ли в заблуждение дихотомические заключения о значимости, при этом многие методологи утверждают, что оценки эффекта и доверительные интервалы должны иметь приоритет над порогами p-значений.
Key figures
- Jerzy Neyman
- Egon Pearson
- Ronald A. Fisher
- Douglas G. Altman
- Sander Greenland
Related topics
Seminal works
- neyman-pearson-1933
- gardner-altman-1986
- wasserstein-lazar-2016
Frequently asked questions
- В чем разница между оценкой и проверкой гипотез?
- Оценка задается вопросом, насколько велика неизвестная величина и насколько точно мы ее знаем, выдавая точечную оценку и интервал; проверка гипотез задается вопросом, совместимы ли данные с указанным утверждением, и приводит к решению или p-значению. Это взаимодополняющие взгляды на одну и ту же базовую статистику.
- Почему статистический вывод вообще необходим?
- Потому что мы почти никогда не наблюдаем всю популяцию; мы работаем с выборкой, которая варьируется случайным образом, поэтому нам нужны формальные методы для отделения сигнала от выборочной изменчивости и для придания честной неопределенности нашим выводам.