Прошло почти два месяца с тех пор, как я опубликовал информацию о своем прогрессе в моем путешествии по науке о данных. Я рад сообщить, что был достигнут некоторый реальный прогресс, и что я относительно на пути к тому, чего хотел достичь в апреле. В этом посте я расскажу о некоторых изменениях, которые я внес в свою учебную программу в феврале и марте, а также о том, как полностью погрузиться в этот процесс.

Изменение

Со времени моего последнего сообщения в блоге я потратил свое время на изучение вероятности и статистического вывода. Я знаю, что в программе я сказал, что собираюсь заняться некоторыми вводными темами вероятности и статистики; так что я не сильно отклонился. Еще в январе я решил использовать две книги, которые, как говорили, действительно хороши для соответствующих тем. Но в начале января я знал, что не добьюсь успеха, если буду продолжать идти по этому пути. Обзорная часть этой одиссеи отняла у меня много сил. Я думаю, основная причина заключалась в том, что, когда я оценивал то, чему научился с помощью практических задач и упражнений, я не применял это в увлекательной игровой форме. Поскольку мне за это не платят, я мог бы сделать весь этот процесс приятным. Имея это в виду, я решил изменить ситуацию и перейти на Coursera.

Если вы похожи на меня, вы, вероятно, начали много занятий на Coursera и закончили очень мало, если таковые вообще были. Я готов признать, что до февраля я ни разу не доходил до второй недели ни на одном из курсов Coursera, на которые я записался. Но я могу с гордостью сказать, что по состоянию на прошлый вторник я закончил два занятия: введение в вероятность и данные и логическую статистику. Оба класса являются частью специализации Mastering Statistics with R, созданной Университетом Дьюка. Две причины, по которым я решил пройти эти два курса, заключались в том, что было много обзоров, говорящих о глубине затронутых концепций, и в том, что каждую неделю проводилось лабораторное занятие по программированию. Несмотря на то, что задания по программированию были на R, а не на Python, я чувствовал, что они проделали большую работу, дополняя то, что было освещено в лекционных видео, что было самым важным. Кроме того, мне очень понравились итоговые проекты. Каждый проект заставляет студента придумать вопрос, на который он хочет ответить, исходя из предоставленных данных, а затем провести соответствующий анализ в R, чтобы ответить на этот вопрос. Это был отличный способ объединить то, чему я научился за первые 4 недели курса. В целом, я ставлю этим курсам два больших пальца вверх.

Идти ва-банк

Когда я начал это путешествие, я сказал, что полностью посвятю себя погружению в сообщество специалистов по данным. Хотя важно знать, какие формулы или библиотеки использовать, взаимодействие с другими людьми в этой области не менее важно. Это взаимодействие может происходить одним из двух способов: активно и пассивно. Один из способов пассивного взаимодействия с людьми в сообществе — это просто подписаться на их блог или послушать их подкаст. Я действительно увлекся подкастами, подписавшись на Data Skeptics, Linear Digressions и Partially Derivative. Подкасты хороши тем, что они позволяют вам быть в курсе того, что происходит сегодня в мире, или получить объяснение техники, пока вы тренируетесь или делаете уборку.

Когда дело доходит до активного участия, посещение конференций и встреч — два отличных варианта. Первая конференция по науке о данных, которую я посетил, была Конференция по науке о данных. Это было здорово, потому что я смог поговорить с людьми, которые занимались наукой о данных и статистикой почти столько же, сколько я жил. Кроме того, все были дружелюбны и готовы ответить на любой мой вопрос. Пока мы говорим о конференциях, я буду присутствовать на своей второй конференции по науке о данных DataEngConf в конце этой недели. Если вы будете присутствовать в четверг и/или пятницу, обязательно поздоровайтесь.

Что дальше

На прошлой неделе я начал читать новую книгу под названием Практическое машинное обучение с помощью Scikit-Learn и TensorFlow: концепции, инструменты и методы создания интеллектуальных систем. Прошел только первые две главы, но я думаю, что у нее огромный потенциал. Кроме того, я решил параллельно пройти Введение в статистическое обучение. Хотя я определенно хочу добавить немного кода, я думаю, что ISLR будет хорошим дополнением, когда дело доходит до теории и математики.

Если вам интересно ознакомиться с моими последними проектами из двух курсов Coursera, которые я прошел, вы можете найти их здесь и здесь.