Самодельный специалист по данным

Мой путь в науку о данных был немного долгим и непростым, поэтому я рад поделиться своим опытом и помочь другим на их пути в этот авантюрный мир данных.

У меня есть опыт работы в области экономики и более 4 лет опыта работы в области управления рисками и бизнес-анализа. Работая над докторской степенью, я начал программировать на R. Мои навыки программирования вначале были не такими сильными. Я прошел несколько онлайн-курсов, чтобы достичь уровня моих сокурсников по докторской группе. Борясь с большим объемом данных, которые мне приходилось обрабатывать для своих исследований (и немного откладывая их), я решил также изучить Python - и Python привел меня к машинному обучению и глубокому обучению. Большую часть знаний я получил из разных интернет-источников, по большей части бесплатно. Ниже я дам вам обзор источников, которые вы можете использовать для изучения Data Science. Если вы давно интересовались машинным обучением, но не знаете, с чего начать, сегодня самое подходящее время для этого - и ниже я обрисовываю план:

1. Что такое наука о данных и как ее употреблять

Тем, у кого есть вопросы, как и где начать, будет очень полезен курс Элементы ИИ (30 часов, начальный уровень, бесплатно) Университета Хельсинки. . Он очень хорошо структурирован и дает базовое понимание искусственного интеллекта и его последствий. Я бы порекомендовал его всем, кто хочет вести информированный разговор об искусственном интеллекте и машинном обучении, не вдаваясь слишком глубоко в детали программирования.

Начальный курс по специализации Data Science, предлагаемый IBM на Coursera, объясняет Что такое Data Science? (6 часов, начальный уровень, 39 долларов США в месяц после 7-дневной бесплатной пробной версии с полным доступом) . Если предыдущий курс интересен читателям из любой сферы, то этот предназначен для тех, кто уже решил пойти глубже и нуждается в отправной точке. Можно продолжить этот курс, выбрав из треков Введение в науку о данных или Профессиональный сертификат IBM Data Science. Поскольку курс предлагается IBM, вся практическая работа происходит на ее платформах.

Уловка: если вы закончите несколько курсов программы в течение первой недели пробного периода, вы иногда получаете сертификаты на Coursera бесплатно, даже если вскоре после этого отмените подписку.

Если вы начали с вышеупомянутого курса IBM, он предлагает очень хорошую специализацию с обзором основных инструментов, методологий и вводным курсом в SQL - Введение в специализацию в области науки о данных (29 часов, начальный уровень, 39 долларов в месяц после 7- дневной полный доступ к бесплатной пробной версии). Как и в предыдущем курсе, будьте готовы к работе с продуктами и платформами IBM.

2. Python или что?

Я пришел в Data Science через язык программирования R, который использовал в своих докторских исследованиях. Изначально я проходил курсы, чтобы улучшить свои навыки программирования на R, и благодаря рекомендациям Coursera, отсутствию крайнего срока для моих исследований и моему любопытству я начал изучать Python. Мой путь был тернист, и я предлагаю вам избежать моих ошибок и выбрать Python с самого начала, поскольку он стал самым мощным и популярным языком для машинного обучения в настоящее время. Несмотря на то, что я все еще люблю R всем сердцем, я перечисляю здесь только курсы Python (для таких, как я, пришедших из R Studio, я предлагаю вам загрузить Spyder, чтобы смягчить культурный шок).

В Мичиганском университете есть несколько специализаций на Coursera для изучения Python. Они предлагают вам начать с Специализация на Python для всех (57 часов, начальный уровень, 49 долларов США в месяц после 7-дневной бесплатной пробной версии с полным доступом), а затем более углубленного Python 3 «Специализация программирования (73 часа, начальный уровень, 49 долларов США в месяц после 7-дневного бесплатного пробного периода с полным доступом).

Если вы начали с IBM на предыдущем этапе, вы также можете продолжить изучение Python вместе с ними. Python для науки о данных и искусственного интеллекта (10 часов, начальный уровень, 39 долларов США в месяц после 7-дневной бесплатной пробной версии с полным доступом) относительно короткий и охватывает все основные темы

Udacity - относительно дорогая платформа с ежемесячной платой в 399 долларов. Он предлагает множество наноразмеров, более индивидуальный подход, реальные проекты от отраслевых экспертов, технических наставников один на один и даже личного тренера по карьерному росту и услуги по развитию карьеры. В любом случае, они также предлагают бесплатный курс Python - Введение в программирование на Python (25 часов, начальный уровень, бесплатно).

Изучение основ Python для анализа данных (12 часов, начальный уровень, бесплатно) и Использование библиотек Python для анализа данных (8 часов, средний уровень, бесплатно) являются другие бесплатные курсы, чтобы начать работу с Python на платформе Openclassrooms. Они состоят из небольших видеороликов (их можно легко воспроизвести с 1,5-кратной скоростью) и текста и обеспечивают быстрый обзор Python с несколькими проектами для экспертной оценки. Платформа работает в основном в режиме пути с ценой 400 евро в месяц, индивидуальным наставничеством и гарантией работы, поэтому все более продвинутые курсы являются платными.

В DataCamp также есть курс Введение в Python (4 часа, начальный уровень, бесплатно) и множество других возможностей продолжить обучение программированию за 29 долларов в месяц. Платформа очень удобна, но все упражнения находятся на их веб-странице, так что вы не станете трогать настоящий Python. Я начал с этого курса и был немного сбит с толку, когда мне потребовалось позже загрузить Anaconda и Spyder для реальной работы.

Платформа Dataquest предлагает очень хорошие курсы Python в рамках платных направлений Data Scientist или Data Analyst (которые в дальнейшем будут стоить от 29 долларов в месяц). Python для науки о данных: основы и Средний уровень, а также основная часть Основы Pandas и NumPy (15–20 часов для всех три курса (начальный уровень, бесплатные) бесплатны и имеют только текстовое содержание. Основные концепции четко объяснены, а в конце каждой части есть проекты с инструкциями, чтобы применить полученные знания на практике.

3. ML, DL, NLP и так далее.

Машинное обучение (56 часов, начальный уровень, 79 долларов в месяц после 7-дневной бесплатной пробной версии с полным доступом, бесплатный аудит), предлагаемый Стэнфордским университетом на Coursera, кажется самым известным курсом в этой области. . Инструктор - Эндрю Нг - соучредитель Coursera, адъюнкт-профессор Стэнфордского университета и многие другие. Курс очень хорош с теоретической точки зрения, но имеет серьезный недостаток использования MATLAB для практических занятий.

Для пользователей R и Python, Машинное обучение AZ ™: Практическое обучение Python и R в науке о данных (41 час, начальный уровень, 19,99 доллара США со скидкой 90%) на сайте Udemy - напротив курса выше - меньше теории, но гораздо больше практических занятий на обоих языках. Он очень хорошо работает в сочетании с вышеуказанным курсом. И в моем случае я смог освоить свой Python, сравнив его с более знакомыми мне сценариями R. По окончании курса у вас будут готовые шаблоны для всех рассмотренных моделей машинного обучения, только не забывайте писать заметки.

Есть также еще один курс по Udemy от тех же инструкторов: Глубокое обучение A – Z ™: практические искусственные нейронные сети (22,5 часа, средний уровень, 10,99 доллара США со скидкой 94%). Это также очень практично и на этот раз включает только Python. Удачное продолжение предыдущего.

Машинное обучение с помощью Python (14 часов, средний уровень, 39 долларов в месяц после 7-дневной бесплатной пробной версии или бесплатного аудита) от IBM на Coursera - еще один вариант изучения машинного обучения, особенно если у вас есть уже начал с предыдущих курсов IBM.

Нейронные сети и глубокое обучение (18 часов, средний уровень, 49 долларов в месяц после 7-дневной бесплатной пробной версии или бесплатного аудита) на deeplearning.ai на Coursera - еще один курс, который ведет Эндрю Нг, но на этот раз включает практические упражнения по программированию на Python. Для дальнейшего углубления знаний вы можете продолжить обучение с полной специализации - Deep Learning Specialization.

Ускоренный курс машинного обучения (15 часов, средний уровень, бесплатно) компактный, бесплатный и быстрый. Это помогает освежить ваши знания за короткое время, например, при подготовке к собеседованию.

Для тех, кто интересуется обработкой естественного языка, этот курс также может быть интересен: Обработка естественного языка в TensorFlow (9 часов, средний уровень, 49 долларов США в месяц после 7-дневного бесплатного пробного использования с полным доступом или бесплатного аудита) от deeplearning.ai на Coursera. Я предлагаю вам сначала пройти курсы ML и DL.

4. Данные? Где? Как?

Наличие SQL в вашем наборе навыков становится важным, если вы ищете работу в Data Science / Analysis, поэтому я включил несколько курсов SQL.

Получение данных с помощью SQL (20 часов, средний уровень, бесплатно) - один из трех бесплатных курсов на платформе Openclassroom. Это однодневное быстрое погружение в SQL. Это хорошо как введение, так и для освежения знаний перед собеседованием.

SQL для анализа данных (31 час, начальный уровень, бесплатно) на Udacity также бесплатно. Он немного длиннее предыдущего, но содержит общие примеры, которые можно было бы обсудить во время интервью.

Базы данных и SQL для науки о данных (11 часов, начальный уровень, 39 долларов в месяц после 7-дневной бесплатной пробной версии или бесплатного аудита) от IBM на Coursera - это часть специализации IBM. В курсе представлены не только концепции, но и способы доступа к базам данных из записных книжек Jupyter с использованием SQL и Python.

5. Можете ли вы быть специалистом по данным / аналитиком?

Да, ты можешь!