Центральная предельная теорема и машинное обучение

Примечание. Здесь я попытаюсь осветить идею Центральной предельной теоремы, ее значение для статистического анализа и то, как она полезна в машинном обучении. Если вы еще не проверили, пожалуйста, найдите ссылку на блог обычного распространения здесь.

Предположим, мы хотим изучить средний возраст всего населения Индии. Поскольку население Индии очень велико, получение данных о возрасте каждого будет утомительной работой, а на опрос уйдет много времени. Вместо этого мы можем собрать образцы из разных частей Индии и попытаться сделать вывод. Для работы с образцами нам нужна теория приближений, которая может упростить процесс вычисления среднего возраста. Здесь на сцену выходит Центральная предельная теорема. Он основан на таком приближении и имеет огромное значение в области статистики. Он использует распределение выборки для обобщения выборок и использования для расчета приблизительного среднего, стандартного отклонения и других важных параметров.

Что такое центральная предельная теорема?

CLT утверждает, что если у вас есть генеральная совокупность с средним μ, sd σ, и вы берете достаточно большие случайные выборки из генеральной совокупности с заменой, то Распределение выборочных средств будет нормальным.

Это будет иметь место независимо от того, является ли исходная совокупность нормальной или искаженной, при условии, что размер выборки достаточно велик (обычно n ›30). Если популяция распределена нормально, то теорема верна даже для выборок меньше 30.

Примечание. CLT будет действителен, если выборки достаточно велики. Если у нас меньше точек данных, то выборки должны быть небольшими, что не является идеальным случаем для оправдания CLT.

Что такое распределение выборки?

График независимо взятых выборок из большого набора данных со средними значениями μ и SD σ называется распределением выборки. По сути, это график распределения выборок с соответствующими параметрами.

Состав CLT:

Для генеральной совокупности (n), если «X» имеет конечное среднее значение μ и sd σ , CLT определяется как,

где выборочное среднее и sd равно,

Таким образом, среднее значение выборки будет приблизительно равно среднему значению генеральной совокупности ( μ ), а sd ( σ ) будет средней стандартной ошибкой. .

Что такое стандартная ошибка?

Стандартная ошибка (SE) статистики - это стандартное отклонение ее выборочного распределения или оценка этого стандартного отклонения. Распределение выборки среднего значения совокупности генерируется путем повторной выборки и регистрации полученных средних значений. Это формирует распределение различных средних, и это распределение имеет собственное среднее и стандартное отклонение.

Математически дисперсия полученного распределения выборки равна дисперсии генеральной совокупности, деленной на размер выборки. По мере увеличения размера выборки выборка означает более тесную кластеризацию вокруг генеральной совокупности. значит. Следовательно, соотношение между стандартной ошибкой среднего и стандартным отклонением равно

Анализ данных:

Здесь я взял набор данных о продажах в Черную пятницу для анализа CLT. Набор данных состоит из 5 50 068 точек данных.

μ and σ of overall purchases are 9263.97 and 5023.07 units respectively.

Участок распространения:

Распределение асимметричное. Здесь мы должны взять более 30 выборок и построить график выборочного распределения средних, чтобы проверить, следует ли оно нормальному распределению или нет.

Каковы предположения для создания выборки?

Образцы следует отбирать случайным образом.
Они должны быть независимыми друг от друга.
Общий размер выборки не должен превышать 10% от всего набора данных.
Размер выборки должен быть достаточно большим (n ›30), если исходный набор данных искажен или асимметричен.

Графики среднего распределения:

Как мы видим, чем больше количество выборок, тем выше вероятность нормального распределения выборочных распределений среднего.

Давайте вычислим среднее μ и SD σ каждого распределения и проверим, насколько оно ближе к μ и σ общих данных о покупках.

По мере увеличения количества выборок среднее значение выборки и стандартное отклонение становятся ближе к исходному среднему и стандартному отклонению. Итак, наш подход и наблюдения с использованием CLT верны.

Аспект машинного обучения:

Как CLT помогает в обобщении больших наборов данных?

Модели машинного обучения обычно рассматривают данные обучения как смесь детерминированных и случайных частей. Пусть из этих частей состоит зависимая переменная (Y). Модели всегда хотят выражать зависимые переменные (Y) как некоторую функцию нескольких независимых переменных (X). Если функция является суммой (или выражается как сумма какой-либо другой функции) и число X велико, тогда Y должно иметь нормальное распределение.
Здесь модели ml пытаются выразить детерминированную часть как сумму детерминированных независимые переменные (X):

детерминированный + случайный = func (детерминированный (1)) +… + func (детерминированный (n)) + model_error

Если вся детерминированная часть Y объясняется X, тогда model_error отображает только случайную часть и должно иметь нормальное распределение (согласно CLT).
Итак, если распределение ошибок нормальное, тогда мы можем предположить, что модель успешна, и мы можем применить линейные алгоритмы к набору данных для лучшие результаты. Остальные элементы отсутствуют в модели, но имеют достаточно большое влияние на Y, либо модель неверна.

Статистический вывод:

Делать статистические выводы о заданных данных - это то, что Data Scientist или ML-инженер делает каждый день. Эта теорема дает нам возможность количественно оценить вероятность того, что наша выборка будет отклоняться от совокупности, без использования какой-либо новой выборки для сравнения. Нам не нужны характеристики всей генеральной совокупности, чтобы понять вероятность того, что наша выборка будет репрезентативной.

Это означает, что если мы не знаем фактического среднего значения генеральной совокупности (μ), то мы можем вывести среднее значение выборки как фактическое среднее значение (μ). В приведенном выше случае, если мы возьмем 500 образцов со 100 точками данных в каждом примере, то 9262,26 единиц можно будет рассматривать как изначально приобретенное среднее значение.

No…

Хотя выборочное среднее почти такое же, как и исходное среднее (μ), одна числовая оценка сама по себе (500 выборок со 100 точками данных) не дает информации о точности и надежности оценка в отношении большей части населения.

В. Тогда как мы можем определить среднее значение генеральной совокупности или в терминах машинного обучения, когда у нас есть окончательная обученная модель, как мы можем сделать вывод о том, насколько умелой будет модель на практике?

Представление этой неопределенности называется доверительным интервалом.

Пожалуйста, найдите ссылку на блог часть 2 здесь. Вы можете найти полный код здесь.