Как устроиться на работу в области науки о данных без опыта работы

Получить работу в области науки о данных непросто. Большинство компаний обычно требуют, чтобы кандидаты имели как минимум 2-летний опыт работы в этой области. Это сильно усложняет проникновение в науку о данных для большинства людей.

Однако есть несколько способов получить реальный опыт в области науки о данных самостоятельно. Вам нужно только сосредоточиться на решении проблем, задач и проектов, которые предстоит реализовать специалисту по данным.

Существует множество руководств, которые обучают тому, что вам нужно изучить, чтобы стать специалистом по данным, но только несколько ресурсов, чтобы практиковать их самостоятельно. Вот почему я собрал большое количество ресурсов, которые помогут вам развить навыки, которыми должен обладать каждый специалист по данным, и получить необходимый вам опыт.

1. Решение проблем SQL

SQL - один из тех навыков, которые могут помочь вам получить работу на разных должностях, и роль специалиста по данным не является исключением.

Для тех, кто все еще изучает основы SQL (или чьи навыки SQL становятся ржавыми, как мои), в Mode доступны тысячи учебных пособий. Там вы можете изучить множество понятий SQL, например, когда использовать SELECT, WHERE, CASE и т. Д.

Обязательно изучите основы SQL, прежде чем решать реальные проблемы SQL, перечисленные ниже.

Базовые упражнения

На разных веб-сайтах предлагаются бесплатные упражнения по SQL для разных систем управления базами данных (PostgreSQL, MySQL, SQL Server и Oracle). Они заблокируют ответы с помощью плана подписки, но есть возможность увидеть решения других людей.

  • HackerRank: предлагает множество задач, разделенных по уровню сложности. Каждая задача имеет формулировку задачи и редактор SQL (DB2, MySQL, SQL Server и Oracle), в котором вы можете написать и отправить свое решение.
  • Stratascratch: это мой любимый вариант, потому что он дает бесплатный доступ к более чем 500 вопросам кодирования данных для SQL и Python. В отличие от HackerRank, Stratascratch дает подсказки о том, как решить упражнение, и показывает ожидаемый результат. К сожалению, он поддерживает только PostgreSQL.

Проблемы SQL

Режим имеет раздел Обучение SQL Analytics, в котором содержатся практические задачи по SQL. Это более полные задачи, чем любые упражнения в упомянутых ранее ресурсах, и это хорошо, потому что они похожи на реальные проблемы SQL, которые вы увидите как специалист по данным.

Некоторые из проблем SQL:

  • Расследование падения вовлеченности пользователей
  • Общие сведения о функциях поиска
  • Проверка результатов A / B-теста


Как создать неотразимое резюме по науке о данных (с кодом)
Хватит тратить время на использование Word. Используйте шаблоны, несколько строк кода и методы, чтобы повысить свои шансы на получение… на сайтdatascience.com »



2. Используйте Pandas для решения задач, с которыми часто сталкиваются специалисты по данным

Панды - обязательный навык, которым должен обладать каждый специалист по данным. Почему? Специалисты по обработке данных используют Pandas для очистки, обработки и подготовки данных для моделирования. Решая эти задачи, вы можете получить реальный опыт. Фактически, почти 80% времени специалиста по данным тратится на сбор, очистку и подготовку данных.

Упражнения Панды

Здесь вы найдете большое количество базовых упражнений Pandas, а также упражнения для других библиотек Python, используемых в науке о данных. Помните, что Pandas - это не остров - иногда вы будете использовать Numpy вместе с Pandas для решения проблемы.

После того, как вы выполните базовые упражнения Pandas, проверьте этот репозиторий, в котором есть более сложные упражнения для практики Pandas. В отличие от первого варианта, это репо сосредоточено на упражнениях Pandas. Там вы найдете инструкции, решения без кода и решения с кодом и комментариями. Репозиторий охватывает такие методы, как фильтрация, сортировка, группировка, визуализация, временные ряды и многое другое.

Решайте задачи по науке о данных

После того, как вы успешно выполните все упражнения, я бы порекомендовал попробовать себя в проекте Pandas. Задача науки о данных, которая в основном решается Pandas, - это очистка данных, поэтому перейдите в Kaggle, выполните поиск в любом наборе данных, который вы хотите, и используйте Pandas для его очистки.

Например, вы можете проверить этот Набор данных фильмов и телешоу Netflix, а затем очистить его, удалив или заменив отсутствующие данные, избавившись от выбросов, отбросив дубликаты, нормализовав текст и т. Д. Если вы хотите знать, как я очистите этот набор данных, проверьте это руководство, которое я сделал.



3. Решите проект по науке о данных.

Лучший способ получить реальный опыт работы с данными перед тем, как устроиться на работу, - это решить проект. Давайте посмотрим на различные типы проектов, которые вам следует решить.

Проект Kaggle

Как вы, наверное, знаете, Kaggle - одно из лучших сообществ по машинному обучению и науке о данных. Там вы найдете тысячи бесплатных наборов данных, а также решения для некоторых распространенных проектов в области науки о данных. Решение часто включает в себя реальные задачи по науке о данных, такие как очистка данных, обработка, анализ данных, построение обучающих наборов и уточнение алгоритмов.

Вот несколько проектов, решенных в Kaggle, которые помогли мне получить реальный опыт до моей первой работы в области науки о данных.

Прогнозирование оттока клиентов: в бизнесе «отток» представляет собой скорость, с которой клиенты прекращают вести дела с организацией. Прогнозирование оттока клиентов из-за его актуальности для компаний используется во многих отраслях (телекоммуникации, банки и т. Д.).

В этом проекте Kaggle наша задача - предотвратить отток клиентов из банка, предсказав, откажется клиент или нет.

Набор данных и исходный код: Прогнозирование оттока клиентов банка

Классификация текста. Классификация текста заключается в присвоении заранее определенных категорий свободному открытому тексту. Некоторые применения этого - анализ настроений, обозначение тем и обнаружение спама. Существует двоичная классификация текста (например, спам или не спам, позитивное или негативное мнение) и мультиклассовая классификация текста.

Если вам нужно вдохновение, вот 2 пошаговых руководства для решения проектов классификации текста:

В руководствах вы найдете наборы данных для решения обоих проектов.

Решение собственного проекта

Решать проекты Kaggle и включать их в свое резюме - это хорошо, но знаете, что лучше? Решение увлеченного проекта.

Выберите тему, которая вам очень нравится (например, финансы, здоровье, спорт), а затем решите ее, используя все свои навыки в области анализа данных. Сформулируйте проблему и вопросы, на которые необходимо ответить, соберите данные, а затем используйте свои знания в Python, машинном обучении, статистике и математике для решения этой проблемы.

Уникальный проект поможет вам выделиться как кандидат. Например, я построил простую модель, предсказывающую результат футбольных матчей. В интервью - благодаря моим познаниям в футболе - мне было легче рассказать об идеях, ограничениях и подходе, которые я использовал для решения этого проекта.

В статье ниже вы найдете 5 примеров проектов, которым нужно следовать.



Присоединяйтесь к моему списку рассылки с более чем 3 тыс. Человек, чтобы получить мою шпаргалку по Python для науки о данных, которую я использую во всех своих учебных пособиях (бесплатный PDF-файл)

Если вам нравится читать подобные истории и вы хотите поддержать меня как писателя, подумайте о подписке, чтобы стать участником Medium. Это 5 долларов в месяц, что дает вам неограниченный доступ к тысячам руководств по Python и статьям по науке о данных. Если вы зарегистрируетесь, используя мою ссылку, я получу небольшую комиссию без каких-либо дополнительных затрат для вас.