Я встречал много людей, которые говорят, что центральная предельная теорема — одна из самых полезных теорем, и она широко используется инженерами по машинному обучению и учеными по данным. Сегодня в этом посте я увижу один очень хороший вариант использования Центральной предельной теоремы.

Центральная предельная теорема гласит, что среднее значение выборочного распределения выборочных средних равно среднему по совокупности независимо от распределения совокупности и при размере выборки более 30.

Давайте попробуем понять значение выделенного выше термина:выборочное распределение означает, что распределение состоит из выборок, а более поздняя часть, т.е.выборка означает подразумевает, что распределение представляет собой статистическое «среднее значение выборки». Мы знаем, что в центральной предельной теореме мы создаем количество выборок размером более 30, вычисляем среднее значение выборок и затем строим их.

Математически это утверждает, что

Пусть μ — среднее значение генеральной совокупности, а σ — стандартное отклонение генеральной совокупности. Если мы возьмем выборку размером N из населения, то в соответствии с CLT среднее выборочного распределения выборочных средних задается как

а стандартное отклонение выборочного распределения выборочных средних задается как

Итак, когда я проходил проверку гипотезы и ее терминологии, такие как нулевая гипотеза, альтернативная гипотеза и т. д., я понял, что нам нужно распределение нулевой гипотезы, и только тогда мы можем проверить, достаточно ли у нас доказательств, чтобы отвергнуть нулевую гипотезу, поэтому нам нужно распределение, чтобы начать и использовать это, мы могли бы сделать проверку гипотезы. Для получения этого распределения можно использовать центральную предельную теорему.

Проверка гипотез по своей сути проверяет, принадлежит ли наша статистика к распределению нулевой гипотезы или к какому-либо другому распределению. Если она не принадлежит нашему распределению нулевой гипотезы, мы говорим, что наша статистика исходит из какого-то другого распределения, и отклоняем нулевую гипотезу.

Давайте рассмотрим пример из реальной жизни, чтобы взглянуть на использование Центральной предельной теоремы.

Предположим, мы являемся частью компании по производству стиральных машин и хотим проверить, стирает ли наша машина белье быстрее, чем любая другая средняя машина на рынке. Мы пытаемся запустить нашу стиральную машину 100 раз и получаем, что среднее время, затрачиваемое нашей машиной, составляет 5,3 минуты, а стандартное отклонение — 2,1 минуты. Другие машины на рынке занимают в среднем 6 минут. Нам нужно проверить, есть ли у вас весомые доказательства того, что наша машина работает быстрее, чем обычные машины?

Итак, у нас есть выборка размером 100, среднее значение выборки = 5,3 минуты, стандартное отклонение выборки = 2,1 минуты, среднее значение генеральной совокупности = 6 минут.

Нулевая гипотеза будет заключаться в том, что наша машина похожа на среднюю машину, то есть среднее время, затрачиваемое нашей машиной, равно 6, что означает, что выборка получена из распределения со средним значением = 6.

Альтернативная гипотеза состоит в том, что наша машина лучше средней машины, то есть среднее время, затрачиваемое нашей машиной, меньше 6, что означает, что выборка происходит из другого распределения со средним значением, не равным 6.

Итак, учтите, что мы берем количество похожих выборок, вычисляем их среднее значение и строим их график, это будет выборочное распределение выборочных средних. Среднее значение этого распределения будет равно среднему значению генеральной совокупности, т. е. 6 (как указано в CLT), а стандартное отклонение также можно рассчитать с помощью CLT. Но мы не знаем стандартное отклонение популяции, поэтому мы принимаем стандартное отклонение выборки, то есть 2,1, в качестве оценки стандартного отклонения популяции (под этим я подразумеваю, что мы можем сказать, что стандартное отклонение популяции приблизительно равно стандартному отклонению выборки). Теперь, когда у нас есть стандартное отклонение совокупности, мы можем с помощью CLT найти стандартное отклонение выборочного распределения выборочных средних.

Примечание: стандартное отклонение выборки, т. е. 2,1, и стандартное отклонение выборочного распределения выборочных средних — это две разные вещи. Первый — это стандартное отклонение 100 выборок, а второй — стандартное отклонение распределения, которое мы создали, используя аналогичные выборки и их средние значения (выборочные средние). Я знаю, что это сложно понять, но не торопитесь и дайте понять. Многократное прочтение статьи прояснит ситуацию.

Теперь распределение, которое мы только что создали, представляет собой распределение со средним значением, равным 6 минутам, и это не что иное, как распределение нулевой гипотезы. Итак, мы можем продолжить наш тест и проверить, находим ли мы существенные доказательства, чтобы отвергнуть нулевую гипотезу или нет. Помните, что мы все еще будем проверять, исходит ли наша выборка из распределения со средним значением = 6, это то, что по своей сути делает проверка гипотез. Мы не будем освещать это в этой статье, но обязательно в следующей статье, поскольку цель этой статьи состояла в том, чтобы увидеть пример использования Центральной предельной теоремы.

Надеюсь, теперь вы знаете реальный пример использования центральной предельной теоремы. Не стесняйтесь оставлять комментарии или вопросы ниже, вы можете найти меня на Linkedin.