Недавно я решил сосредоточиться на науке о данных, начав с машинного обучения. В процессе обучения я обнаружил, что это имеет прямое отношение к математике, а точнее к линейной алгебре и статистике. Я никогда не изучал статистику систематически, поэтому решил восполнить пробелы и улучшить свои знания, внедрив статистические концепции в программы.

Моей первой остановкой были «10 дней статистики» на платформе hackerrank.com. В этом рассказе я дам краткий обзор трека.

Итак, я рекомендую «10 дней статистики»? Зависит от ... Если у вас мало или совсем нет опыта программирования, но у вас есть статистические знания - я бы сказал: да, этот курс для вас. Вы приобретете некоторые навыки программирования, работая над знакомыми концепциями. Если у вас есть какие-то навыки программирования и вы разбираетесь в статистике, думаю, не стоит проводить целые 10 дней. Если вы чувствуете, что у вас могут быть пробелы в статистике, но у вас нет времени следить за всем треком (от одного до двух часов в день, но это варьируется от человека к человеку, и это зависит от того, насколько глубоко вы вникаете в тему ), возможно, будет полезно прочитать этот обзор.

Здесь я буду делиться темами на каждый день с кратким описанием, но если вам интересно, вы можете заглянуть в мой Github, чтобы увидеть предлагаемые задачи и, возможно, мои решения.

Итак, хватит разговоров - 10 дней статистики таковы:

День 1 (или «0», поскольку они начинают отсчет с нуля):

Среднее, Среднее и Режим: Дорожка начинается с основ, с учебника, как и в любой другой день трека, с объяснением концепций - иногда он содержит видео или текст, в других случаях есть ссылка на внешние ресурсы. Если у вас возникли проблемы с пониманием чего-либо из этого или если вы хотите получить более глубокое понимание любого предмета, вы можете проверить статистику на платформе K han Academy. Одним из важных моментов является различие в измерении этих показателей для выборки статистической совокупности и при измерении тех же показателей для всей совокупности. Также рекомендую ознакомиться с Законом больших чисел.

День 2:

Квартили и стандартное отклонение: снова фундаментальные показатели. Когда дело доходит до анализа данных, стандартное отклонение чрезвычайно полезно (оно в основном измеряет разброс данных). В реальных ситуациях вы не будете его реализовывать, но лучше сделать это один раз, чтобы убедиться, что в действительности это не так сложно. Кроме того, одним из ключевых моментов для меня было то, что мы предпочитаем использовать стандартное отклонение, а не дисперсию (несмотря на дополнительную работу, которую вы должны приложить для его вычисления), потому что стандартное отклонение использует те же единицы, что и среднее значение.

День 3 и 4:

Вероятность: это может быть целый курс. Я рекомендую проверить Академию Хана, потому что проблемы в день 3 и 4 просто касаются поверхности. Вероятность важна для машинного обучения. Это потому, что в машинном обучении мы делаем предположения о распределении данных; а где есть распределение - там вероятность.

День 5 и 6:

Распределения: То же, что и выше - вам необходимо глубокое понимание распределений, особенно в генеративном моделировании. Присваивания связаны с биномиальным, геометрическим, пуассоновским и нормальным распределением.

День 7:

Центральная предельная теорема: простая и увлекательная концепция, которую стоит проверить. Обязательно выполняйте задания - они довольно интересные. Так же, как и закон больших чисел, центральную предельную теорему легко понять, но она имеет решающее значение для повседневных предположений о данных. Чтобы узнать, почему это важно, нажмите здесь.

День 8:

Коэффициент корреляции Пирсона. Способ измерения корреляции между случайными событиями:

День 9:

Линия регрессии методом наименьших квадратов. Этот день абсолютно необходим. Вы узнаете о статистическом подходе при подборе прямой линии с использованием двух формул для поиска b в линейной модели (линия регрессии): Y = a + bX (одна формула с коэффициентом Пирсона)

День 10:

Линейная регрессия с несколькими переменными: здесь вы подробно узнаете, как мы можем представить X в виде m примеров, каждый с n функциями, Y и B в виде векторов. И задача дня - реализовать линейную регрессию с несколькими переменными, используя нормальное уравнение (для меня это самый красивый метод линейной регрессии):

В учебном пособии для 10-го дня очень ясно показано, как это можно получить.

Заключение:

Я считаю, что этот 10-дневный курс является отличным шагом перед началом курса машинного обучения или даже в процессе обучения. Он довольно широкий и неглубокий, но для ~ 10–20 часов работы это здорово! Я хотел бы узнать ваше мнение, так что прокомментируйте, пожалуйста, ниже! :)

PS: в деталях

Если вы заинтересовались этой темой, вам действительно будет полезно пройти по каждой из ссылок и ознакомиться с соответствующими ресурсами - например, Генеративные модели связаны с Теоремой Байеса. Просто углубитесь в Википедию и, если у вас возникнут проблемы с пониманием концепции - просто загляните в Академию Хана или Онлайн-книгу статистики, в которой есть много информации, а также интерактивные инструменты для визуализации концепций, такие как выборочные распределения демо ».