В чем разница между оценкой и проверкой гипотез?

Оценка задается вопросом, насколько велика неизвестная величина и насколько точно мы ее знаем, выдавая точечную оценку и интервал; проверка гипотез задается вопросом, совместимы ли данные с указанным утверждением, и приводит к решению или p-значению. Это взаимодополняющие взгляды на одну и ту же базовую статистику.

Почему статистический вывод вообще необходим?

Потому что мы почти никогда не наблюдаем всю популяцию; мы работаем с выборкой, которая варьируется случайным образом, поэтому нам нужны формальные методы для отделения сигнала от выборочной изменчивости и для придания честной неопределенности нашим выводам.

Статистическая оценка и вывод

Статистическая оценка и вывод — это раздел биостатистики, занимающийся получением заключений о популяции на основе конечной, вариабельной выборки. Он предоставляет формальный аппарат для двух взаимодополняющих задач: оценки неизвестных величин (таких как среднее значение, доля или эффект лечения) с указанием предела неопределенности, а также проверки совместимости наблюдаемых данных с выдвинутой гипотезой. Вместе эти инструменты превращают необработанные данные исследования в количественные, учитывающие неопределенность утверждения о мире.

Найти тему в PaperMindСкороFind papers & topics

Tools & resources

Скачать слайды

Learn & explore

ВидеоСкоро

Definition

Статистический вывод — это процесс использования выборки наблюдений вместе с вероятностной моделью возникновения этих наблюдений для оценки параметров популяции и количественной оценки неопределенности или проверки гипотез относительно этих параметров.

Scope

Эта область знакомит читателя с основными идеями, которые постоянно встречаются в исследованиях в области здравоохранения: точечная и интервальная оценка, доверительные интервалы, концепция проверки гипотез, два вида ошибок принятия решений, которые она может порождать, а также статистическая мощность и размер выборки, необходимые для надежного обнаружения эффектов. Эти темы рассматриваются как методологические справочные материалы для оценки и разработки исследований, а не как правила принятия клинических решений.

Sub-topics

Core questions

Какова наша наилучшая единичная оценка неизвестной величины популяции и насколько она неопределенна?
Какой диапазон значений правдоподобно согласуется с наблюдаемыми данными?
Совместимы ли данные с указанной нулевой гипотезой или они предоставляют доказательства против нее?
Какой размер выборки необходим для обнаружения эффекта заданной величины с приемлемыми показателями ошибок?

Key concepts

Параметр популяции против выборочной статистики
Выборочное распределение и стандартная ошибка
Точечная оценка
Интервальная оценка и доверительный интервал
Нулевая и альтернативная гипотезы
P-значение
Ошибка I и II рода
Статистическая мощность
Определение размера выборки

Key theories

Теория принятия решений Неймана-Пирсона: Сформулировала проверку гипотез как выбор между двумя гипотезами, регулируемый контролируемыми долгосрочными показателями ошибок, вводя формальные понятия ошибок I и II рода и наиболее мощного критерия для фиксированного уровня значимости.
Парадигма оценки с учетом неопределенности: Утверждает, что представление оценок эффекта с доверительными интервалами передает больше информации, чем простое заключение о значимости, смещая акцент с вопроса о существовании эффекта на то, насколько он правдоподобно велик.

Mechanisms

Вывод основывается на вероятностной модели, связывающей данные с неизвестными параметрами, и на идее выборочного распределения: разброса оценок, который возник бы при повторных выборках. Оценка суммирует это выборочное распределение как точечную оценку плюс меру точности (стандартную ошибку), которая затем преобразуется в интервал. Проверка гипотез переформулирует то же распределение как проблему принятия решения, сравнивая наблюдаемые данные с тем, что предсказывает нулевая гипотеза, и контролируя вероятность ложноположительных и ложноотрицательных выводов. P-значения и доверительные интервалы — это две стороны одного и того же базового расчета, и оба часто неверно истолковываются, поэтому важна тщательная формулировка.

Clinical relevance

Почти каждое количественное заключение в медицинской литературе — отношение рисков, средняя разница, показатель диагностической точности — является выводным утверждением, несущим неопределенность. Поэтому понимание оценки и вывода имеет центральное значение для чтения и оценки доказательств, а также для суждения о том, является ли сообщаемый эффект точным, правдоподобным и адекватно обоснованным. Эта область описывает, как такие доказательства генерируются и интерпретируются; она не является основой для индивидуальных диагностических или лечебных решений.

Evidence & guidelines

Профессиональные организации выпустили четкие рекомендации по ограничению распространенного неправомерного использования методов статистического вывода. Заявление Американской статистической ассоциации 2016 года о p-значениях изложило принципы их правильной интерпретации, а сопутствующее руководство Гринленда и коллег каталогизирует двадцать пять частых неверных толкований p-значений, доверительных интервалов и мощности. Более ранний призыв Гарднера и Альтмана отдавать предпочтение доверительным интервалам перед голыми p-значениями сформировал правила отчетности в медицинских журналах.

History

Современный вывод вырос из двух отчасти конкурирующих традиций начала двадцатого века: проверки значимости и p-значений Фишера, а также теоретико-решающей концепции проверки гипотез, которую Нейман и Пирсон формализовали в 1933 году. Доверительный интервал, также в значительной степени разработанный Нейманом, предоставил дополнительный, ориентированный на оценку подход. В течение второй половины двадцатого века статистики и эпидемиологи все чаще критиковали механическую зависимость от порогов значимости, что привело к официальным предостерегающим заявлениям статистического сообщества в 2010-х годах.

Debates

Проверка значимости против оценки: Давняя дискуссия ставит под сомнение, вводят ли в заблуждение дихотомические заключения о значимости, при этом многие методологи утверждают, что оценки эффекта и доверительные интервалы должны иметь приоритет над порогами p-значений.

Key figures

Jerzy Neyman
Egon Pearson
Ronald A. Fisher
Douglas G. Altman
Sander Greenland

Seminal works

neyman-pearson-1933
gardner-altman-1986
wasserstein-lazar-2016

Frequently asked questions

В чем разница между оценкой и проверкой гипотез?: Оценка задается вопросом, насколько велика неизвестная величина и насколько точно мы ее знаем, выдавая точечную оценку и интервал; проверка гипотез задается вопросом, совместимы ли данные с указанным утверждением, и приводит к решению или p-значению. Это взаимодополняющие взгляды на одну и ту же базовую статистику.
Почему статистический вывод вообще необходим?: Потому что мы почти никогда не наблюдаем всю популяцию; мы работаем с выборкой, которая варьируется случайным образом, поэтому нам нужны формальные методы для отделения сигнала от выборочной изменчивости и для придания честной неопределенности нашим выводам.