Ошибки I и II рода
Ошибки I и II рода — это два способа, которыми проверка гипотезы может привести к неверному выводу. Ошибка I рода — это ложноположительный результат, то есть отклонение истинной нулевой гипотезы и утверждение о наличии эффекта, которого на самом деле нет. Ошибка II рода — это ложноотрицательный результат, то есть неспособность обнаружить реальный эффект. Уровень значимости контролирует частоту ошибок I рода, а дополнение к частоте ошибок II рода является статистической мощностью, поэтому эти два типа ошибок определяют, как дизайн исследования балансирует риски завышенных и заниженных утверждений.
Definition
Ошибка I рода — это отклонение нулевой гипотезы, которая на самом деле верна (ложноположительный результат), происходящее с вероятностью альфа; ошибка II рода — это непринятие нулевой гипотезы, которая на самом деле ложна (ложноотрицательный результат), происходящее с вероятностью бета.
Scope
Эта тема определяет два типа ошибок, связывает их с уровнем значимости (альфа) и частотой ошибок II рода (бета), а также объясняет компромисс между ними при разработке исследования. Это справочная методология для оценки и планирования исследований, а не правило принятия клинических решений.
Core questions
- Что означает сделать ложноположительный или ложноотрицательный вывод?
- Как уровень значимости и частота ошибок II рода связаны с этими ошибками?
- Почему снижение одной частоты ошибок может увеличить другую?
- Как размер выборки влияет на вероятность каждой ошибки?
Key concepts
- Ошибка I рода (ложноположительный результат)
- Ошибка II рода (ложноотрицательный результат)
- Уровень значимости (альфа)
- Частота ошибок II рода (бета)
- Мощность как 1 минус бета
- Компромисс между ошибками
- Множественное тестирование и завышенные ложноположительные результаты
Mechanisms
В схеме Неймана-Пирсона тест разрабатывается путем предварительного фиксирования допустимой частоты ошибок I рода (альфа, уровень значимости), что определяет, как часто истинная нулевая гипотеза будет ошибочно отклонена. Частота ошибок II рода (бета) — это вероятность пропустить реальный эффект заданного размера, а единица минус бета — это мощность теста. При фиксированном размере выборки эти две частоты ошибок находятся в компромиссе: ужесточение теста для уменьшения ложноположительных результатов увеличивает вероятность ложноотрицательных, и наоборот. Увеличение размера выборки является основным способом уменьшить обе ошибки одновременно. Проверка множества гипотез без корректировки увеличивает общую частоту ошибок I рода, поэтому множественность является постоянной проблемой дизайна.
Clinical relevance
Эти типы ошибок лежат в основе того, как выводы клинических испытаний и обсервационных исследований могут вводить в заблуждение: ложноположительный результат может способствовать продвижению неэффективного вмешательства, в то время как ложноотрицательный результат может привести к отклонению полезного. Понимание того, контролировало ли исследование свои частоты ошибок — и отражает ли нулевой результат просто низкую мощность — является ключевым для оценки доказательств. Эта статья объясняет ошибки вывода и не является основой для индивидуальных клинических решений.
Evidence & guidelines
Методологические комментарии подчеркивают, что незначимый результат не является доказательством отсутствия эффекта, поскольку исследования с низкой мощностью часто приводят к ошибкам II рода; замечание Альтмана и Блэнда о том, что отсутствие доказательств не является доказательством отсутствия, прямо отражает это. Обзоры исследований с низкой мощностью, такие как анализ Баттона и коллег в нейробиологии, показывают, как низкая мощность как увеличивает количество ложноотрицательных результатов, так и снижает надежность значимых результатов.
History
Различие между ошибками первого и второго рода было введено Нейманом и Пирсоном в их формализации проверки гипотез 1933 года, которая рассматривала дизайн теста как контроль этих двух вероятностей ошибок. Практические последствия — особенно опасность ошибки II рода в небольших исследованиях — стали повторяющейся темой в методологических критиках исследований в области здравоохранения и поведенческих наук в XX и XXI веках.
Debates
- Интерпретация незначимых результатов
- Поскольку исследования с низкой мощностью часто совершают ошибки II рода, незначимый результат часто ошибочно интерпретируется как демонстрация отсутствия эффекта; методологи подчеркивают, что отсутствие доказательств не является доказательством отсутствия.
Key figures
- Jerzy Neyman
- Egon Pearson
- Douglas G. Altman
- J. Martin Bland
- John P. A. Ioannidis
Related topics
Seminal works
- neyman-pearson-1933
- altman-bland-1995
Frequently asked questions
- В чем разница между ошибкой I рода и ошибкой II рода?
- Ошибка I рода — это ложноположительный результат, то есть вывод о наличии эффекта, когда его нет. Ошибка II рода — это ложноотрицательный результат, то есть пропуск реального эффекта. Их вероятности называются альфа и бета соответственно.
- Почему нельзя просто сделать обе частоты ошибок как можно меньше?
- При фиксированном размере выборки эти две частоты находятся в компромиссе: ужесточение теста для сокращения ложноположительных результатов увеличивает количество ложноотрицательных. Основной способ уменьшить обе одновременно — это увеличить размер выборки.