Первое слово, которое объединяет все четыре должности, - «данные». Данные - это топливо текущего десятилетия. Непосредственное общество процветает на них, и ни одна организация не может выжить без решений, основанных на доступных данных. Из-за экспоненциального всплеска роста и потребности в данных отрасли становятся полностью зависимыми от этих четырех рабочих ролей.

Популярные должности? Определенно.

Но достаточно запутать.

В этой статье делается попытка обсудить ключевые различия и сходства между аналитиком данных, инженером данных, специалистом по анализу данных и инженером машинного обучения.

Data Analyst vs Data Engineer: одинаковые или разные?

Когда я впервые познакомился с этими двумя терминами, у меня возникло заблуждение, что они полностью синонимичны. И в этом заключается самая большая ошибка, которую совершает большинство из нас. Многие люди склонны использовать эти два термина поочередно. Но, хотя разрыв может показаться небольшим, на самом деле это не так.

Кто такой инженер по обработке данных?

В полном жизненном цикле проекта машинного обучения первый человек, который инициирует процесс, - это инженер по данным. Этот человек несет полную ответственность за подготовку данных для использования, а также за разработку всей архитектуры. Основные роли инженера по данным:

  1. Извлечение данных.
  2. Чтение и понимание данных.
  3. Создание и обновление необходимых баз данных на основе отношения данных к категории (много-один, один-один, один-много).
  4. Согласуйте архитектуру с бизнес-требованиями.
  5. Повышение удобочитаемости, удобства использования и эффективности данных.
  6. Подготовка данных к аналитике.

Инженер по обработке данных должен хорошо разбираться в программировании и алгоритмах работы с данными, а также хорошо разбираться в статистике и математике. Необходимы глубокие знания реляционных (например, SQL) и нереляционных баз данных (например, MongoDB, Cassandra).

Тогда кто такой аналитик данных?

Этот человек идет после парня инженера данных. Как следует из названия, этот человек полностью сосредоточен на анализе данных, чтобы обеспечить понимание и поиск в них вероятных закономерностей. Основные роли аналитика данных:

  1. Данные майнинга.
  2. Очистка и обработка данных для повышения точности.
  3. Удалите ненужную избыточность.
  4. Анализируя данные, чтобы извлечь их ценность.
  5. Поиск и утверждение тенденций, корреляций и закономерностей в данных.
  6. Предоставление полезной информации.
  7. Рассказ данных с четкой визуализацией.
  8. Ведение баз данных.
  9. Обеспечьте ценность для организаций.

Аналитик данных должен обладать сильными аналитическими навыками и деловой хваткой. Технические навыки необходимы для того, чтобы расширить ваши возможности по рассказыванию историй. Кроме того, аналитики данных известны своими безупречными навыками общения.

Специалист по данным: мастер на все руки

Название немного расскажет вам о силе специалиста по данным. Специалист по данным - это тот, кто моделирует данные для текущего использования. Вы когда-нибудь слышали о машинном обучении? Даже если вы этого не сделали, не паникуйте. Давайте посмотрим на пример из реального мира.

Предположим, компания, скажем, Spotify, создает систему, которая будет предлагать / рекомендовать песни пользователю на основе истории песен этого пользователя. Теперь такие рекомендательные системы работают по алгоритму, известному как коллаборативная фильтрация. Совместная фильтрация говорит, что

Если пользователь A слушает Ed Sheeran и The Chainsmokers, пользователь B слушает The Chainsmokers, Ed Sheeran и Beyonce, а пользователь C слушает Beyonce, пользователю C автоматически будут рекомендованы песни Эда Ширана и The Chainsmokers.

Понятно, что данные будут включать все интересы, касающиеся всех пользователей, которые в настоящее время используют Spotify (довольно большой набор данных!). Но какая польза от этого набора данных, если он не может помочь компании порекомендовать песни? Именно здесь в игру вступает работа специалиста по данным. Специалист по анализу данных строит модели машинного обучения или глубокого обучения, которые моделируются для обучения на основе прошлых данных и предоставления требуемых прогнозов. . Он / она придает ценность данным и обеспечивает их функциональность.

Data Scientist - это мост между проанализированными данными и конечными прогнозами.

Инженер по машинному обучению: миротворец

Вы когда-нибудь задумывались, что происходит после создания модели машинного обучения? Результаты прогнозов, привязанные к вашей персональной машине, бесполезны для клиентов. Затем модели развертываются на веб-сайте или в мобильном приложении, чтобы придать им организационную ценность и обобщить их для клиентов.

Но специалист по данным - это тот, кто обладает знаниями исключительно для построения моделей машинного обучения и получения прогнозов. С другой стороны, веб-разработчик, создавший веб-сайт, или разработчик приложения, создавший мобильное приложение, не имеют ни малейшего представления о машинном обучении или глубоком обучении.

Таким образом, между двумя сторонами образуется широкая траншея, которую ни одно сообщество не готово перейти.

Инженер по машинному обучению - лучшее благословение в таком сценарии. Этот человек знает лучшее из обоих миров и отвечает за то, чтобы модели были доступны пользователям через веб-сайты и приложения. В общем, инженер машинного обучения - это тот, кто завершает жизненный цикл проекта машинного обучения, инициированного инженером по данным. Роли инженера машинного обучения:

  1. Понимание и изменение модели машинного обучения / глубокого обучения по мере необходимости.
  2. Изменение серверной части соответствующего веб-сайта / приложения.
  3. Создание всей внутренней логики для развертывания модели в Интернете.
  4. Развертывание или запуск финального проекта в производство.
  5. Обеспечение хорошего потока данных между серверной частью и базами данных.
  6. Оптимизация кода для обеспечения гибкости.

Наука о данных, без сомнения, сейчас карьера №1 в тренде

Однако шокирует тот факт, что 80% людей, претендующих на должность, основанную на Data Science, не знают о различиях между различными вакансиями, открытыми для них. Многие студенты, как правило, игнорируют эти основы и в конечном итоге остаются в замешательстве и оказываются в затруднительном положении. Кто-то может любить математику и статистику больше, чем веб-разработку. Затем он / она может с радостью тренироваться, чтобы стать инженером по данным, а не инженером машинного обучения.

Знание тонких различий между разнообразием профессий и связанными с ними обязанностями помогает учащимся принимать мудрые, взвешенные решения; адаптированы с учетом их интересов.

Большое спасибо за то, что прочитали этот пост. Пожалуйста, предложите в разделе комментариев, как можно улучшить этот блог :)

Удачного обучения! :)

Ссылки: