Возможно, большинство из вас, читающих это, являются новичками в науке о данных и пришли сюда из любопытства, чтобы узнать, что это за теорема и что в ней такого важного.

Не волнуйтесь, вы получите то, что хотите!

А если нет, будучи работающим профессионалом, вы все равно найдете эту статью полезной, и в конце вы сможете заново пережить свои первые дни в качестве специалиста по данным!

Давай поиграем!!

Да, играй, я серьезно. Мы виртуально будем играть, изучая эту теорему. Итак, начнем.

Предположим, через 10 лет вы стали мультимиллионером и отказались от выхода на пенсию. Предположим, однажды вы решили пойти поиграть в гольф с друзьями. Все мы знаем, что в гольфе цель состоит в том, чтобы забить мяч в лунку. Но не так-то просто поймать туза!

Кто-то из вас может ударить по мячу совсем близко от лунки, а у кого-то может быть плохая рука, и он ударит по мячу далеко от лунки!

Итак, как вы знаете, большинство мячей приземлится рядом с отверстием, и плотность будет продолжать уменьшаться по мере удаления от отверстия. Но почему?

Считать !

.

.

.

Да вы правы, это потому что вы все целились в дырку!

Смотрите, в этом красота трендов. Вы всегда найдете толпу, где что-то модно/популярно или желанно, как в этом случае.

В науке о данных существует множество областей, таких как аналитика больших данных, визуализация данных и так далее, но среди них прогнозный анализ и проверка гипотез занимают первое место. Но об этом позже!!

Давайте представим, что у вас есть двухмерная декартова система координат x и y, а начало координат будет представлять Отверстие. (Да, я знаю, что вас интересует сейчас, когда речь пойдет о математике и системах координат. Очевидно, да! На самом деле, эта статья посвящена доказательству и выводу. Но не волнуйтесь, как я уже говорил, мы будем играть через это довольно легко)

Итак, давайте определим функцию, которая даст нам относительное представление о том, насколько хорошо вы и ваши друзья играете в гольф. Просто шучу! Мы будем использовать эту функцию, чтобы получить вероятность найти мяч в определенных местах. (Почему? Просто статистика! Вы знаете, чем занимаются специалисты по данным)

Прежде чем начать, давайте определим некоторые особенности этой функции. Есть определенные предположения для нашей функции.

  • Все мы знаем, что вероятность найти мяч где-либо на поле для гольфа равна 1. Поэтому, если мы проинтегрируем нашу функцию от –бесконечности до +бесконечности, она должна вернуть 1.
  • Наша функция должна возвращать более высокое значение вблизи отверстия и сравнительно меньшее значение, когда мы удаляемся от отверстия.
  • Самое важное предположение для нашей функции заключается в том, что результат нашей функции зависит только от расстояния до отверстия, а не от угла. Хотя если вы используете одно направление, то это несправедливо, но мы учитываем, что вы и ваши друзья будете играть со всех разных направлений. Так что угол не имеет значения.

Посмотрите, если вы играете с противоположной стороны лунки, вы можете попасть в тот же удар!

Итак, на данный момент наши предположения достаточно справедливы, и мы собираемся погрузиться в математические расчеты. Теперь, если мы хотим узнать вероятность попадания мяча в область dA, наша функция выглядит как P(r)dA, где dA — это площадь, а P(r) — наша функция, которая дает вероятность нахождения мяч на расстоянии r от лунки.

Теперь еще одно предположение, которое мы собираемся сделать, заключается в том, что оси X и Y полностью независимы для наших функций, что означает, что событие нахождения мяча на расстоянии X от оси Y не зависит от события нахождения мяча на расстоянии Y от ось Х. Поэтому мы можем переписать нашу функцию как

Где f(x) дает вероятность мяча на расстоянии x от оси Y, а f(y) дает вероятность мяча на расстоянии y от оси X.

Почему несколько?? Потому что эти события независимы!!!

С этими предположениями мы можем определить

Это можно переписать как

Далее, предположим, что y = 0, тогда мы будем иметь

где λ — константа, поскольку f(0) — константа.

Подставляя это обратно в уравнение (2), мы имеем

Далее мы определим выражение для f(x).

Во-первых, мы перепишем уравнение (3) как

Для простоты анализа уравнения определим

Теперь у нас есть

Теперь, если мы хотим представить это с точки зрения среднего и дисперсии, это будет выглядеть примерно так

Если вы плохо знакомы с средним и дисперсией, я бы порекомендовал вам разобраться в них, поскольку они широко используются в науке о данных. Оставьте комментарий ниже, если хотите опубликовать это!

Приведенное выше уравнение известно как НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ. Также известно как РАСПРЕДЕЛЕНИЕ ГАУССА.

Помните, мы говорили об проверке гипотез как о важной области науки о данных? И вся идея этой статьи заключалась в том, чтобы узнать об одной из самых важных теорем в науке о данных?

Но это не та теорема! Теорема, о которой я говорил, называлась CLT (центральная предельная теорема), которую фактически называют сердцем проверки гипотез.

Я знаю, о чем ты сейчас думаешь!! Но эй, не сердись! Интуитивное знание и вывод нормального распределения очень важны перед переходом на CLT, поскольку CLT основан на кривой нормального распределения!

Подробнее о CLT в следующем посте! До свидания!

Бонус: Функция, которую мы только что вывели, которая может сказать нам, насколько хорошо вы умеете играть в гольф (или которая может дать вероятность нахождения мячей на случайном расстоянии x от лунки), принадлежит определенный класс функций. Эти функции обычно называются Функциями распределения вероятностей.

Свяжитесь со мной, если вам нужна дополнительная информация об этих функциях!