Мнение

3 вещи, которые я сделал, чтобы стать специалистом по данным

… Во время работы аналитиком данных

Оглавление

  1. Вступление
  2. Освойте популярные алгоритмы машинного обучения
  3. Проведите сквозное тематическое исследование
  4. Используйте аналитику данных для обработки мастер-данных
  5. Резюме
  6. использованная литература

Вступление

Эта статья предназначена для людей, которые в настоящее время являются аналитиками данных и хотят сменить карьеру на Data Science. Со стороны некоторые могут сказать, что эти две роли похожи, но, как мы знаем, они требуют совершенно разных навыков, помимо некоторых их сходств. Итак, как можно преодолеть разрыв между этими ролями? Вот что я объясню здесь. Хотя есть материалы, которые обычно рекомендуют аспирантуру, онлайн-курсы и учебные пособия, я хотел сосредоточиться на более конкретных и уникальных вещах, которые вы можете сделать для перехода в Data Science, от человека, который сначала был аналитиком данных, а теперь является профессионалом. Специалист по данным. Продолжайте читать, если вы хотите узнать три вещи, которые вы можете сделать, чтобы стать специалистом по анализу данных.

Освойте популярные алгоритмы машинного обучения

Хотя эта тема может показаться очевидной, на самом деле я сначала начал изучать в первую очередь логистическую регрессию, регрессию и деревья решений. Причина, по которой я говорю «популярный», заключается в том, что каждый год или около того появляется новый алгоритм, по которому создатели курса еще не разработали материал для изучения в школе, поэтому решать вам старайтесь изо всех сил изучать новейшие, новейшие и лучшие алгоритмы и библиотеки. У этой темы две стороны: одна - овладение кодом, а другая - теорией. Часто после некоторого образования вы все больше и больше погружаетесь в код и стремитесь отойти от того, что на самом деле заставляет алгоритмы работать. Следовательно, важно знать, как объяснить почти 10–20 лучших алгоритмов описательно, а не только программно. Когда вы станете специалистом по данным, вы поймете, что большинство библиотек для алгоритмов работают одинаково, а фактический код для них довольно прост, вы начинаете метод проб и ошибок , а затем понимаете, что забыли часть теории, лежащей в основе того, что отличает алгоритм от другого и как он на самом деле работает на концептуальном уровне.

При этом есть несколько способов овладеть этими алгоритмами.

  • В качестве элемента действия, я лично считаю, что записать на карточках название алгоритма на лицевой стороне, а затем описание того, как он работает, и как вы объясните это себе. и другие движутся вперед.
  • Точно так же в качестве следующего элемента действия вы даже можете нарисовать, как работает алгоритм, например, как дерево решений. Когда вы физически пишете и рисуете что-то, в этом методе есть что-то, что заставляет вас лучше запоминать этот материал.
  • Что касается программирования, то одна из библиотек, которая особенно полезна при сравнении почти всех алгоритмов машинного обучения, - это PyCaret от Моэза Али.

Итак, после того, как вы изучите основные алгоритмы, вы поймете, что, став профессиональным специалистом по анализу данных, вам нужно было еще много чего практиковать. Поэтому лучше всего изучить их сейчас, будучи аналитиком данных. Чтобы погрузиться глубже, многие курсы, учебные пособия и образовательные материалы будут начинаться с тех же нескольких базовых алгоритмов, но часто в сборнике статистики или курсе машинного обучения для начинающих не разъясняются новые и более популярные алгоритмы, такие как XGBoost и CatBoost.

Проведите сквозное тематическое исследование

Для этого опыта цель состоит в том, чтобы не только выполнить непрерывный процесс, чтобы напоминать, как будет работать обычный процесс после того, как вы получите работу, но и поделиться своим ситуационным исследованием, чтобы менеджеры по найму, рекрутеры и будущие коллеги могли увидеть кое-что из того, на что вы способны. Как аналитик данных, вы, возможно, уже знакомы с процессом определения бизнес-проблемы и исследования данных, связанных с ней. Это означает, что вы будете иметь преимущество перед теми, кто не привык к этому процессу.

Вам нужно сделать следующее:

  • найти общую проблему, например, прогнозировать фондовый рынок
  • получить бесплатные фиктивные данные
  • определить ключевые особенности, которые, по вашему мнению, было бы важно включить в модель
  • протестируйте около 10 алгоритмов на одних и тех же данных и сравните, как работает каждый из них
  • Обобщите свои результаты с помощью визуализации, чем вы и будете заниматься в профессиональной среде

Этот процесс можно продемонстрировать разными способами. Вы можете показать все это в своем Jupyter Notebook или аналогичном инструменте и сохранить свои графики и обсуждения в рамках уценки записной книжки или создать отдельные сводные визуальные эффекты в Tableau. , Excel или Google Data Studio. Самый распространенный способ представления вашего тематического исследования - опубликовать его на GitHub, большинство инженеров, ученых и менеджеров привыкли к этому формату и инструменту, поэтому предпочтительнее поделиться здесь. Как аналитик данных, вы можете иметь преимущество в организации данных, определении бизнес-показателей или ключевых показателей эффективности (Ключевые показатели эффективности), а также в визуализации результатов.

Используйте аналитику данных для обработки мастер-данных

Возможно, самая большая проблема Data Science - это предварительная обработка или обработка данных. Этот шаг также часто занимает больше всего времени. Как аналитик данных, вы можете использовать свои навыки работы с данными, чтобы убедиться, что ваш набор данных, который будет использоваться для вашей модели, находится в наилучшей форме. Знание того, какие алгоритмы использовать, как мы обсуждали выше, может сэкономить вам много времени, потому что, например, иногда отсутствие данных может быть проблемой, в то время как некоторые алгоритмы автоматически обрабатывают это.

Вот несколько способов, которыми вы можете использовать навыки анализа данных на этапе предварительной обработки Data Science:

  • вменять недостающие данные различными способами, например mean, min или max
  • объединение файлов CSV для создания окончательного набора данных
  • использование SQL для запроса таблиц вашей компании, включая группировки, наблюдения и фильтры
  • переназначение типов данных определенным функциям (‘object’, int, float, ‘category’ и т. д.)

Как видите, работа аналитиком данных даст вам определенные преимущества при изучении данных. Часто говорят, что большая часть сложных и стрессовых частей науки о данных - это на самом деле обработка данных, поэтому, если вы сможете освоить это в первую очередь или, по крайней мере, ознакомиться с ней, у вас может быть преимущество в том, чтобы стать специалистом по данным.

Резюме

Если вы хотите стать специалистом по данным, убедитесь, что вы знаете, во что ввязываетесь. Хотя создание алгоритмов является более интересной частью, обычно важно помнить, что анализ данных также является огромной частью процесса. Еще одна вещь, которую я сделал, чтобы получить работу Data Scientist, - это изучать теорию алгоритмов машинного обучения - больше, чем обычные алгоритмы, которые приводятся в старых учебниках и курсах. У вас также может быть преимущество, когда вы исследуете новейшие алгоритмы, потому что, скорее всего, они улучшают то, что предыдущие делали плохо, например скорость, точность, типы данных, отсутствующие значения и т. Д. Наконец, портфолио, состоящее из одного или двух кейсов, может быть невероятно выгодным не только для вас, но и для большего числа менеджеров по найму и рекрутеров.

Подводя итог, вот три вещи, которые я сделал, чтобы стать специалистом по данным, и, надеюсь, вы тоже сможете применить эти действия:

* Master Popular Machine Learning Algorithms
* Perform An End-to-End Case Study
* Use Data Analytics to Master Data Processing

Надеюсь, моя статья была вам интересна и полезна! Не стесняйтесь оставлять комментарии ниже, если вы использовали какие-либо свои навыки анализа данных, когда стали специалистом по данным - и какие?. Помогло ли это вам сейчас в вашей карьере в области Data Science? Вы согласны или не согласны и почему?

Не стесняйтесь проверять мой профиль и другие статьи, а также обращаться ко мне в LinkedIn. У меня нет аффилированных лиц.

Спасибо за чтение!

использованная литература

[1] Фото Nathan Dumlao на Unsplash, (2018)

[2] Фотография Маркуса Списке на Unsplash, (2016)

[3] Фото Campaign Creators на Unsplash, (2018)

[4] Фотография Myriam Jessier на Unsplash, (2020)