Начнем с постановки бизнес-задачи,

Менеджер по продажам компании в Индии хочет узнать средний объем продаж пакетиков шампуня на семью в месяц.
Проще говоря, мы можем ходить по домам и спрашивать, сколько пакетиков шампуня вы используете в месяц, а затем среднее значение. этот номер, чтобы вернуть его менеджеру. Но если вы заметили, в этом подходе есть большая проблема. Здесь нам придется посетить каждый дом во всей Индии. Это был бы трудоемкий и дорогостоящий процесс.

Теперь давайте посмотрим, как Центральная предельная теорема (ЦПТ) приходит на помощь!
ЦПТ говорит:
1) Существует популяция
2) Мы берем много случайных выборок одинакового размера из нашего населения.
3) Возьмите среднее значение этих выборок.
4) Нанесите это среднее значение на график распределения ( гистограмму )
5) «Мы получим нормальное распределение»
6) И среднее значение распределения приближается к среднему значению популяции по мере увеличения размера выборки

Теперь вернемся к нашей прикладной части.
Мы не можем охватить все население Индии, поэтому берем один образец. Среднее значение этого образца, которое мы выбрали, может быть одним из распределения, показанного на изображении ниже.

На изображении выше, согласно центральной предельной теореме, это распределение среднего значения выборок, взятых из совокупности, а в центре его находится приблизительное среднее значение совокупности.
Полученная нами выборка может быть где угодно (показана зелеными стрелками) вокруг среднего населения. Это может быть где угодно в этом распределении, а не только зеленые стрелки.

Менеджер хочет узнать средний объем продаж пакетиков с шампунем среди населения.
Я беру небольшую выборку (2 номера, 4 номера, 3 номера, 6 номеров,……….), примите это в расчет, здесь предположим, что это 4 .
Теперь я не могу сказать, что среднее значение популяции составляет 4 мл, основываясь только на одном образце. Итак, здесь я дам интервал с некоторым уровнем достоверности, что среднее значение населения находится между ними.

μ = x̅ + — Z( s/ √n)

μ = среднее значение генеральной совокупности (мы не знаем)
x̅ = среднее значение выборки (в нашем случае это 4 пакетика)
s = стандартное отклонение нашей выборки
стандартная ошибка = s/ √n< br /> n = размер выборки
Z = для достоверности 95% (0,05 слева и 0,95 справа)

Мы можем сказать менеджеру, что продажи пакетиков с шампунем для всего населения находятся в пределах (4 +- Z * стандартная ошибка) этого значения с достоверностью 95%.

Так что это решает нашу проблему доступности для населения.

Еще одно применение – проверка гипотез.

Пример:
Компания утверждает, что в их пакетиках с шампунем содержится 10 мл шампуня.
Подозреваю, что меньше, чем они заявляют. Чтобы проверить это утверждение, я иду на рынок и беру небольшой образец пакетиков шампуня, взвешиваю их все и записываю их вес в миллилитрах. Тогда прими это во внимание.

Случай 1: я получаю среднее значение 3 мл.
Я сравниваю это с заявленным средним значением для населения, независимо от того, принадлежит ли мой пакетик тому же населению или нет. Для этого мы находим доверительный интервал и обнаруживаем, что 10 мл не входят в доверительный интервал 95%, поэтому мы говорим, что нет достаточных доказательств, чтобы принять нулевую гипотезу, которая является утверждением компании.

Случай 2: я получаю среднее значение 8 мл.
Я сравниваю это с заявленным средним значением для популяции, независимо от того, принадлежит ли мой пакетик той же популяции или нет. Для этого мы находим доверительный интервал и обнаруживаем, что 10 мл находятся в пределах 95% доверительного интервала, и мы говорим, что имеется достаточно доказательств, чтобы мы не могли отвергнуть нулевую гипотезу, которая является утверждением компании. Также мы можем сказать, что 8 мл означает, что это произошло случайно, и это только из той же популяции пакетиков по 10 мл.