Что такое статистическая мощность простыми словами?

Это вероятность того, что исследование обнаружит реальный эффект заданной величины, если этот эффект действительно существует. Более высокая мощность означает лучший шанс не пропустить истинный эффект; 80% мощности — это распространенная цель.

Почему размер выборки так важен?

Большие выборки увеличивают мощность и сужают точность оценок, поэтому исследование может надежно обнаружить эффект, который оно ищет. Слишком малая выборка рискует как пропустить реальные эффекты, так и привести к преувеличенным значимым результатам.

Статистическая мощность и размер выборки

Статистическая мощность — это вероятность того, что исследование обнаружит эффект заданной величины, если этот эффект действительно существует; формально это единица минус частота ошибок второго рода. Определение размера выборки — это этап планирования, на котором выбирается необходимое количество участников для достижения целевой мощности, учитывая ожидаемый размер эффекта, выбранный уровень значимости и изменчивость данных. Вместе они определяют, достаточно ли велико исследование, чтобы дать его вопросу справедливый шанс на ответ.

Найти тему в PaperMindСкороFind papers & topics

Tools & resources

Скачать слайды

Learn & explore

ВидеоСкоро

Definition

Статистическая мощность — это вероятность того, что тест правильно отклоняет ложную нулевую гипотезу (обнаруживает реальный эффект заданной величины); определение размера выборки — это расчет количества наблюдений, необходимых для достижения целевой мощности при заданном уровне значимости для предполагаемого размера эффекта и изменчивости.

Scope

Эта тема объясняет, что означает мощность, четыре взаимосвязанные величины расчета мощности (размер эффекта, уровень значимости, мощность и размер выборки), а также последствия исследований с недостаточной мощностью. Она представлена как справочная методология для планирования и оценки исследований, а не как правило для принятия клинических решений.

Core questions

Насколько вероятно, что исследование обнаружит эффект, который оно ищет?
Сколько участников необходимо для достижения целевой мощности?
Как размер эффекта, изменчивость и уровень значимости влияют на размер выборки?
Что происходит, когда исследование имеет недостаточную мощность?

Key concepts

Статистическая мощность (1 минус бета)
Размер эффекта
Уровень значимости (альфа)
Изменчивость и стандартное отклонение
Априорный расчет размера выборки
Исследование с недостаточной мощностью
Минимальная клинически значимая разница

Mechanisms

Мощность, уровень значимости, размер эффекта и размер выборки связаны таким образом, что фиксация любых трех определяет четвертую. При заданном уровне значимости мощность возрастает по мере увеличения истинного размера эффекта, уменьшения изменчивости и увеличения размера выборки. Расчет размера выборки инвертирует это соотношение: исходя из предполагаемого размера эффекта (часто минимального, который стоит обнаружить), выбранного уровня значимости и целевой мощности — обычно 80% или 90% — он определяет необходимое количество наблюдений. Недостаточная мощность не только увеличивает вероятность пропуска реальных эффектов (ошибка второго рода), но также делает любые значимые результаты более вероятными к преувеличению или ложности, поскольку только большие, возможно, завышенные оценки преодолевают порог в небольшом исследовании.

Clinical relevance

То, была ли адекватно обеспечена мощность испытания или исследования, определяет, как следует интерпретировать его результаты: незначительный результат исследования с недостаточной мощностью в значительной степени неинформативен, а не обнадеживает, и проспективное обоснование размера выборки является ожидаемым элементом отчетности об исследовании. Эта запись описывает рассуждения о мощности и размере выборки для целей оценки и проектирования и не является основой для индивидуальных диагностических или лечебных решений.

Evidence & guidelines

Стандарты отчетности для клинических испытаний и обсервационных исследований требуют априорного обоснования размера выборки, а методологические обзоры задокументировали широко распространенный вред низкой мощности. Баттон и коллеги показали, что области с хронически недостаточной мощностью дают ненадежные литературные данные, в то время как Альтман и Бланд, а также руководство по неверной интерпретации Гринленда и коллег подчеркивают, что низкая мощность объясняет многие неинформативные нулевые результаты.

History

Мощность является прямым следствием концепции проверки гипотез Неймана-Пирсона, которая определила частоту ошибок второго рода, дополнением которой является мощность. Работа Джейкоба Коэна с 1960-х годов, консолидированная в его монографии 1988 года, популяризировала систематический анализ мощности и соглашения о размере эффекта в области здравоохранения и поведенческих наук. Обеспокоенность по поводу исследований с недостаточной мощностью усилилась в дебатах о воспроизводимости в 2010-х годах.

Debates

Последствия хронической недостаточной мощности: Постоянно низкая мощность не только увеличивает количество ложноотрицательных результатов, но и снижает вероятность того, что статистически значимый результат отражает истинный эффект, а также преувеличивает размер тех эффектов, о которых сообщается, подрывая надежность всей литературы.

Key figures

Jacob Cohen
Jerzy Neyman
Egon Pearson
Douglas G. Altman
John P. A. Ioannidis

Seminal works

cohen-1988
button-2013

Frequently asked questions

Что такое статистическая мощность простыми словами?: Это вероятность того, что исследование обнаружит реальный эффект заданной величины, если этот эффект действительно существует. Более высокая мощность означает лучший шанс не пропустить истинный эффект; 80% мощности — это распространенная цель.
Почему размер выборки так важен?: Большие выборки увеличивают мощность и сужают точность оценок, поэтому исследование может надежно обнаружить эффект, который оно ищет. Слишком малая выборка рискует как пропустить реальные эффекты, так и привести к преувеличенным значимым результатам.