Статистическая мощность и размер выборки
Статистическая мощность — это вероятность того, что исследование обнаружит эффект заданной величины, если этот эффект действительно существует; формально это единица минус частота ошибок второго рода. Определение размера выборки — это этап планирования, на котором выбирается необходимое количество участников для достижения целевой мощности, учитывая ожидаемый размер эффекта, выбранный уровень значимости и изменчивость данных. Вместе они определяют, достаточно ли велико исследование, чтобы дать его вопросу справедливый шанс на ответ.
Definition
Статистическая мощность — это вероятность того, что тест правильно отклоняет ложную нулевую гипотезу (обнаруживает реальный эффект заданной величины); определение размера выборки — это расчет количества наблюдений, необходимых для достижения целевой мощности при заданном уровне значимости для предполагаемого размера эффекта и изменчивости.
Scope
Эта тема объясняет, что означает мощность, четыре взаимосвязанные величины расчета мощности (размер эффекта, уровень значимости, мощность и размер выборки), а также последствия исследований с недостаточной мощностью. Она представлена как справочная методология для планирования и оценки исследований, а не как правило для принятия клинических решений.
Core questions
- Насколько вероятно, что исследование обнаружит эффект, который оно ищет?
- Сколько участников необходимо для достижения целевой мощности?
- Как размер эффекта, изменчивость и уровень значимости влияют на размер выборки?
- Что происходит, когда исследование имеет недостаточную мощность?
Key concepts
- Статистическая мощность (1 минус бета)
- Размер эффекта
- Уровень значимости (альфа)
- Изменчивость и стандартное отклонение
- Априорный расчет размера выборки
- Исследование с недостаточной мощностью
- Минимальная клинически значимая разница
Mechanisms
Мощность, уровень значимости, размер эффекта и размер выборки связаны таким образом, что фиксация любых трех определяет четвертую. При заданном уровне значимости мощность возрастает по мере увеличения истинного размера эффекта, уменьшения изменчивости и увеличения размера выборки. Расчет размера выборки инвертирует это соотношение: исходя из предполагаемого размера эффекта (часто минимального, который стоит обнаружить), выбранного уровня значимости и целевой мощности — обычно 80% или 90% — он определяет необходимое количество наблюдений. Недостаточная мощность не только увеличивает вероятность пропуска реальных эффектов (ошибка второго рода), но также делает любые значимые результаты более вероятными к преувеличению или ложности, поскольку только большие, возможно, завышенные оценки преодолевают порог в небольшом исследовании.
Clinical relevance
То, была ли адекватно обеспечена мощность испытания или исследования, определяет, как следует интерпретировать его результаты: незначительный результат исследования с недостаточной мощностью в значительной степени неинформативен, а не обнадеживает, и проспективное обоснование размера выборки является ожидаемым элементом отчетности об исследовании. Эта запись описывает рассуждения о мощности и размере выборки для целей оценки и проектирования и не является основой для индивидуальных диагностических или лечебных решений.
Evidence & guidelines
Стандарты отчетности для клинических испытаний и обсервационных исследований требуют априорного обоснования размера выборки, а методологические обзоры задокументировали широко распространенный вред низкой мощности. Баттон и коллеги показали, что области с хронически недостаточной мощностью дают ненадежные литературные данные, в то время как Альтман и Бланд, а также руководство по неверной интерпретации Гринленда и коллег подчеркивают, что низкая мощность объясняет многие неинформативные нулевые результаты.
History
Мощность является прямым следствием концепции проверки гипотез Неймана-Пирсона, которая определила частоту ошибок второго рода, дополнением которой является мощность. Работа Джейкоба Коэна с 1960-х годов, консолидированная в его монографии 1988 года, популяризировала систематический анализ мощности и соглашения о размере эффекта в области здравоохранения и поведенческих наук. Обеспокоенность по поводу исследований с недостаточной мощностью усилилась в дебатах о воспроизводимости в 2010-х годах.
Debates
- Последствия хронической недостаточной мощности
- Постоянно низкая мощность не только увеличивает количество ложноотрицательных результатов, но и снижает вероятность того, что статистически значимый результат отражает истинный эффект, а также преувеличивает размер тех эффектов, о которых сообщается, подрывая надежность всей литературы.
Key figures
- Jacob Cohen
- Jerzy Neyman
- Egon Pearson
- Douglas G. Altman
- John P. A. Ioannidis
Related topics
Seminal works
- cohen-1988
- button-2013
Frequently asked questions
- Что такое статистическая мощность простыми словами?
- Это вероятность того, что исследование обнаружит реальный эффект заданной величины, если этот эффект действительно существует. Более высокая мощность означает лучший шанс не пропустить истинный эффект; 80% мощности — это распространенная цель.
- Почему размер выборки так важен?
- Большие выборки увеличивают мощность и сужают точность оценок, поэтому исследование может надежно обнаружить эффект, который оно ищет. Слишком малая выборка рискует как пропустить реальные эффекты, так и привести к преувеличенным значимым результатам.