Что такое доверительный интервал, как его рассчитать и его важные характеристики

Доверительный интервал (CI) очень важен в статистике и науке о данных. В этой статье я собираюсь объяснить доверительный интервал, способы его вычисления и его важные характеристики.

Доверительный интервал (ДИ) - это диапазон значений. Он выражается в процентах и ​​должен содержать наилучшую оценку статистического параметра. Доверительный интервал 95% означает 95% уверенности, что наш параметр популяции находится между этим доверительным интервалом.

Интерпретация доверительных интервалов

Вот заявление:

«В выборке из 659 родителей с малышами 540, около 85 процентов, заявили, что используют автокресло для всех путешествий с малышом. На основе этих результатов был получен 95% доверительный интервал от 82,3% до 87,7% ».

Это утверждение означает, что с 95% уверенностью доля населения, использующего автокресло для всех поездок с малышом, составляет 82,3 и 87,7. Если мы возьмем несколько подвыборок из этой популяции, то в 95% случаев доля населения, которая использует автокресло для всех поездок с малышом, упадет от 82,3% до 87,7%.

Можно ли сказать, что доверительный интервал (82,3, 87,7) содержит истинную долю населения? Ответ неизвестен. Доля населения - фиксированная величина, но неизвестная. Важно помнить, что 95% -ная достоверность не означает 95-процентную вероятность.

Почему так важен доверительный интервал?

Это важно, потому что большую часть времени невозможно получить данные от каждого человека в популяции. В приведенном выше примере размер выборки составлял 659 человек. Мы оценили долю населения, состоящую из родителей с детьми ясельного возраста, которые используют автокресло во всех поездках, по выборке из 659 родителей. Мы не смогли получить данные от всех родителей с малышами. Итак, мы рассчитываем долю населения из нашей доступной выборки и учитываем погрешность. С такой погрешностью мы получаем диапазон. Этот диапазон называется доверительным интервалом. Доверительный интервал - это способ выразить, насколько хорошо данные выборки представляют всю генеральную совокупность. Вы можете рассчитать доверительный интервал любого числа (менее 100%). Но наиболее распространенным является доверительный интервал 95%.

Как рассчитать доверительный интервал

Формула доверительного интервала:

Обычно нам нужен высокий уровень достоверности, такой как 75%, 95% или 99%. Чем выше уровень достоверности (CL), тем ниже точность. В приведенном выше примере наилучшая оценка составляет 85%. Мы можем рассчитать оценки SE по следующей формуле:

В уравнении выше p1 - наилучшая оценка, а n - размер выборки. Вот таблица z-показателей для нескольких часто используемых уровней достоверности.

Вставляя все значения,

Доверительный интервал составляет 82,3% и 87,7%.

Диапазон CI выше для более высокого CL.

Таким же образом мы можем рассчитать уровень достоверности 99%. Вам нужно только изменить z-показатель. Из приведенной выше таблицы z-оценка для уровня достоверности 99% составляет 2,57. Подставив это значение в формулу доверительного интервала, доверительный интервал для уровня достоверности 99% составит от 81,43% до 88,57%. Диапазон доверительного интервала выше для более высокого уровня достоверности.

На картинке выше «му» в середине - это наилучшая оценка, а сигма - это стандартное отклонение. В нашем примере мы использовали стандартную ошибку, поскольку стандартное отклонение генеральной совокупности неизвестно. На рисунке показано, что 68% населения находится в пределах одной сигмы от наилучшей оценки. Это 68% доверительный интервал. Таким же образом 95% доверительный интервал и 99,7% доверительный интервал находятся в диапазоне от 2 до 3 сигм от наилучшей оценки «mu». Другой способ выразить это так: 95% и 99,7% популяции находятся в диапазоне 2 и 3 сигмы от наилучшей оценки «mu». Если эта картинка вас смущает, не беспокойтесь об этом и рассчитайте различные уровни достоверности по формулам, приведенным выше, с помощью таблицы z-значений. Это даст вам представление о тенденции.

CI уже для большей выборки

Чем больше размер выборки, тем точнее доверительный интервал. Докажем это на примере родителей с малышами. Предположим, что наилучшая оценка останется прежней - 0,85. Но размер выборки составляет 1500 вместо 659. Теперь вставьте этот новый размер выборки в формулу и рассчитайте 95% доверительный интервал.

Доверительный интервал для 95% доверительного уровня становится 83,2% и 86,8%, что уже 82,3% и 87,7%.