Знаете ли вы, как вывести одну из самых важных теорем, которую вы должны знать как данные…

Возможно, большинство из вас, читающих это, являются новичками в науке о данных и пришли сюда из любопытства, чтобы узнать, что это за теорема и что в ней такого важного.

Не волнуйтесь, вы получите то, что хотите!

А если нет, будучи работающим профессионалом, вы все равно найдете эту статью полезной, и в конце вы сможете заново пережить свои первые дни в качестве специалиста по данным!

Давай поиграем!!

Да, играй, я серьезно. Мы виртуально будем играть, изучая эту теорему. Итак, начнем.

Предположим, через 10 лет вы стали мультимиллионером и отказались от выхода на пенсию. Предположим, однажды вы решили пойти поиграть в гольф с друзьями. Все мы знаем, что в гольфе цель состоит в том, чтобы забить мяч в лунку. Но не так-то просто поймать туза!

Кто-то из вас может ударить по мячу совсем близко от лунки, а у кого-то может быть плохая рука, и он ударит по мячу далеко от лунки!

Итак, как вы знаете, большинство мячей приземлится рядом с отверстием, и плотность будет продолжать уменьшаться по мере удаления от отверстия. Но почему?

Считать !

Да вы правы, это потому что вы все целились в дырку!

Смотрите, в этом красота трендов. Вы всегда найдете толпу, где что-то модно/популярно или желанно, как в этом случае.

В науке о данных существует множество областей, таких как аналитика больших данных, визуализация данных и так далее, но среди них прогнозный анализ и проверка гипотез занимают первое место. Но об этом позже!!

Давайте представим, что у вас есть двухмерная декартова система координат x и y, а начало координат будет представлять Отверстие. (Да, я знаю, что вас интересует сейчас, когда речь пойдет о математике и системах координат. Очевидно, да! На самом деле, эта статья посвящена доказательству и выводу. Но не волнуйтесь, как я уже говорил, мы будем играть через это довольно легко)

Итак, давайте определим функцию, которая даст нам относительное представление о том, насколько хорошо вы и ваши друзья играете в гольф. Просто шучу! Мы будем использовать эту функцию, чтобы получить вероятность найти мяч в определенных местах. (Почему? Просто статистика! Вы знаете, чем занимаются специалисты по данным)

Прежде чем начать, давайте определим некоторые особенности этой функции. Есть определенные предположения для нашей функции.

Все мы знаем, что вероятность найти мяч где-либо на поле для гольфа равна 1. Поэтому, если мы проинтегрируем нашу функцию от –бесконечности до +бесконечности, она должна вернуть 1.
Наша функция должна возвращать более высокое значение вблизи отверстия и сравнительно меньшее значение, когда мы удаляемся от отверстия.
Самое важное предположение для нашей функции заключается в том, что результат нашей функции зависит только от расстояния до отверстия, а не от угла. Хотя если вы используете одно направление, то это несправедливо, но мы учитываем, что вы и ваши друзья будете играть со всех разных направлений. Так что угол не имеет значения.

Посмотрите, если вы играете с противоположной стороны лунки, вы можете попасть в тот же удар!

Итак, на данный момент наши предположения достаточно справедливы, и мы собираемся погрузиться в математические расчеты. Теперь, если мы хотим узнать вероятность попадания мяча в область dA, наша функция выглядит как P(r)dA, где dA — это площадь, а P(r) — наша функция, которая дает вероятность нахождения мяч на расстоянии r от лунки.

Теперь еще одно предположение, которое мы собираемся сделать, заключается в том, что оси X и Y полностью независимы для наших функций, что означает, что событие нахождения мяча на расстоянии X от оси Y не зависит от события нахождения мяча на расстоянии Y от ось Х. Поэтому мы можем переписать нашу функцию как

Где f(x) дает вероятность мяча на расстоянии x от оси Y, а f(y) дает вероятность мяча на расстоянии y от оси X.

Почему несколько?? Потому что эти события независимы!!!

С этими предположениями мы можем определить

Это можно переписать как

Далее, предположим, что y = 0, тогда мы будем иметь

где λ — константа, поскольку f(0) — константа.

Подставляя это обратно в уравнение (2), мы имеем

Далее мы определим выражение для f(x).

Во-первых, мы перепишем уравнение (3) как

Для простоты анализа уравнения определим

Теперь у нас есть

Теперь, если мы хотим представить это с точки зрения среднего и дисперсии, это будет выглядеть примерно так

Если вы плохо знакомы с средним и дисперсией, я бы порекомендовал вам разобраться в них, поскольку они широко используются в науке о данных. Оставьте комментарий ниже, если хотите опубликовать это!

Приведенное выше уравнение известно как НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ. Также известно как РАСПРЕДЕЛЕНИЕ ГАУССА.

Помните, мы говорили об проверке гипотез как о важной области науки о данных? И вся идея этой статьи заключалась в том, чтобы узнать об одной из самых важных теорем в науке о данных?

Но это не та теорема! Теорема, о которой я говорил, называлась CLT (центральная предельная теорема), которую фактически называют сердцем проверки гипотез.

Я знаю, о чем ты сейчас думаешь!! Но эй, не сердись! Интуитивное знание и вывод нормального распределения очень важны перед переходом на CLT, поскольку CLT основан на кривой нормального распределения!

Подробнее о CLT в следующем посте! До свидания!

Бонус: Функция, которую мы только что вывели, которая может сказать нам, насколько хорошо вы умеете играть в гольф (или которая может дать вероятность нахождения мячей на случайном расстоянии x от лунки), принадлежит определенный класс функций. Эти функции обычно называются Функциями распределения вероятностей.

Свяжитесь со мной, если вам нужна дополнительная информация об этих функциях!

Знаете ли вы, как вывести одну из самых важных теорем, которую вы должны знать как данные…

Вопросы по теме