Доверительные интервалы
Доверительный интервал — это диапазон правдоподобных значений для неизвестной величины генеральной совокупности, рассчитанный на основе выборочных данных таким образом, что процедура его построения охватывала бы истинное значение в заявленной доле случаев — обычно 95% — при многократных выборках. Он выражает как величину оценки, так и неопределенность вокруг нее в одном, широко используемом резюме и стал предпочтительным способом представления оценок эффекта в науках о здоровье.
Definition
Доверительный интервал — это интервал, рассчитанный на основе выборочных данных определенным методом при заданном уровне доверия, таким образом, что метод будет содержать истинный параметр генеральной совокупности в указанной доле гипотетических повторных выборок.
Scope
Эта тема объясняет, что такое доверительный интервал, как следует интерпретировать его уровень доверия, как ширина интервала отражает точность и размер выборки, а также распространенные заблуждения относительно этой концепции. Она представлена как справочная методология для оценки и отчетности исследований, а не как правило для принятия клинических решений.
Core questions
- Какой диапазон значений параметра правдоподобно согласуется с данными?
- Что на самом деле гарантирует уровень доверия?
- Как размер выборки и изменчивость определяют ширину интервала?
- Как доверительный интервал соотносится с проверкой гипотез или p-значением?
Key concepts
- Уровень доверия
- Вероятность охвата
- Ширина интервала и точность
- Нижний и верхний пределы доверия
- Частотная интерпретация
- Отношение к нулевому значению
- Точные и приближенные интервалы
Mechanisms
Доверительный интервал обычно формируется путем взятия точечной оценки и расширения ее на множитель ее стандартной ошибки, где множитель устанавливается желаемым уровнем доверия и соответствующим выборочным распределением. Определяющим свойством частотного подхода является охват: если бы исследование повторялось много раз, интервалы, построенные таким образом, содержали бы истинный параметр в заявленной доле повторений. Интервал сужается по мере увеличения выборки или уменьшения изменчивости, поэтому ширина является прямым показателем точности. Распространенный ярлык связывает интервалы с тестами — если 95% интервал для разницы исключает нулевое значение, соответствующий двусторонний тест значим на уровне 5% — но интервал передает больше, показывая весь диапазон совместимых значений. Частая ошибка заключается в интерпретации уровня как вероятности того, что истинное значение находится внутри одного конкретного интервала, что не поддерживается частотным определением.
Clinical relevance
Доверительные интервалы сопровождают большинство оценок эффекта в клинических и эпидемиологических отчетах, позволяя читателям судить не только о наличии эффекта, но и о его величине и точности оценки. Широкий интервал сигнализирует о неубедительном исследовании, даже если точечная оценка выглядит поразительной. Эта запись описывает, как строятся и интерпретируются интервалы, и не является основой для индивидуальных диагностических или лечебных решений.
Evidence & guidelines
Руководства по отчетности и редакционные правила в медицине теперь регулярно требуют представления оценок эффекта с доверительными интервалами. Заявление Американской статистической ассоциации о p-значениях и руководство по неверной интерпретации Гринленда и коллег подчеркивают правильную интерпретацию интервалов наряду с p-значениями, основываясь на более ранней пропаганде Гарднера и Альтмана отчетности на основе интервалов.
History
Доверительный интервал был введен Ежи Нейманом в 1930-х годах как частотный подход к интервальной оценке, с ранними точными конструкциями, такими как пределы Клоппера-Пирсона для биномиальной пропорции, появившимися в 1934 году. Его рутинное использование в медицине было стимулировано позже в двадцатом веке, в частности, аргументом Гарднера и Альтмана 1986 года в пользу отчетности интервалов, а не просто p-значений, что изменило журнальные конвенции.
Debates
- Неправильная интерпретация уровня доверия
- Уровень доверия описывает долгосрочную эффективность процедуры построения интервала, а не вероятность того, что конкретный рассчитанный интервал содержит истинное значение; это различие широко неправильно понимается и является постоянным источником ошибок.
Key figures
- Jerzy Neyman
- Egon Pearson
- Martin J. Gardner
- Douglas G. Altman
- Sander Greenland
Related topics
Seminal works
- clopper-pearson-1934
- gardner-altman-1986
Frequently asked questions
- Означает ли 95% доверительный интервал, что существует 95% вероятность того, что истинное значение находится внутри него?
- Нет. Согласно частотному определению, истинное значение фиксировано, и 95% относится к долгосрочной доле таких интервалов, построенных одинаковым образом на основе повторных выборок, которые будут его содержать, а не к вероятности для одного конкретного интервала.
- Что делает доверительный интервал узким или широким?
- В основном размер выборки и изменчивость: большие выборки и менее изменчивые данные дают более узкие, более точные интервалы, в то время как небольшие или зашумленные исследования дают широкие интервалы, сигнализирующие о неопределенности.