Поле данных относительно новое, и я все еще чувствую, что многие люди, которые пытаются проникнуть в эту область, сильно сомневаются в том, что именно делает каждая роль.

Итак, чтобы объяснить, что такое машинное обучение, мне нужно объяснить две другие наиболее распространенные роли науки о данных.

Инженерия данных:

Сначала давайте начнем с инженерии данных. Я вижу, что многие компании хотят нанять специалиста по данным, но на самом деле им нужна инженерия данных. Они несут ответственность за структурирование того, где и как будут храниться данные. Они делают это, создавая конвейеры данных, чтобы данные можно было хранить в инструменте, который упрощает доступ к ним, а также перед сохранением исправляют некоторые ошибки, которые могут иметь данные.

Важно отметить, что это одна из самых важных ролей во всем мире данных, потому что, если у вас нет хорошей структуры и доступных данных, инженерия машинного обучения и специалист по данным не очень помогут.

Когда меня попросили построить модель временных рядов для прогнозирования ежемесячных продаж, я сказал, что мне нужны данные как минимум за 2 года, и они сказали, что нет проблем, но когда они показали мне, что все данные были в файлах Excel, например, в 100 файлах Excel. , для решения этой проблемы я потратил месяц, чтобы собрать все в один файл, и около недели, чтобы построить модель.

Специалист по данным:

Вторая известная роль в области науки о данных - это специалист по данным. Сегодня в большинстве компаний у специалистов по обработке данных есть только одна цель: создать лучшую модель машинного обучения, которую он может придумать, потому что у большинства компаний есть нестандартные проблемы, поэтому им нужно индивидуальное решение. и поверьте мне, это не всегда легко.

Машинное обучение:

Итак, объяснив эти две концепции, легко понять, что делает инженерия машинного обучения, и то и другое.

Большинство специалистов по данным сегодня, когда создают потрясающую пользовательскую модель, они не думают, как они будут создавать модель, некоторые по-прежнему пишут код на R, который не будет запущен в производство, поэтому после того, как они построят модель, инженеры машинного обучения отвечает за то, чтобы эта модель взаимодействовала со всеми другими приложениями в облаке, следя за тем, чтобы даже при внесении изменений модель оставалась прежней, но также взаимодействовала с облачными инструментами.

Чтобы прояснить ситуацию, давайте представим приложение, которое может идентифицировать лица, как этот продукт будет построен:

1. Сначала команда DevOps создаст приложение, которое отправит изображение в облако.

2- В облаке инженер по обработке данных создаст серверную часть для сохранения изображений, а также сохранит созданное приложение.

3- Специалист по данным сосредоточится только на построении лучшей модели распознавания лиц.

4- И после всего этого придет инженер по машинному обучению, который поместит эту модель в облако, структурирует конвейер, чтобы каждый раз, когда фотография появлялась в облаке, они запускали модель и отправляли ответ в приложение.

Я один из тех людей, которые любят соперников, поэтому мне нравится, что сегодня часть моей работы - немного разобраться со всем, что создается. Но я должен сказать, что если вы когда-нибудь захотите стать хорошим инженером по машинному обучению, вам нужно будет иметь возможность постоянно изучать все виды различных способностей, в некоторых проектах вы погрузитесь в DevOps, в других случаях вы теряете сон из-за конвейера и в других случаях сходить с ума от того, какую модель использовать.

Надеюсь, я смог немного прояснить, что делает роль данных, и надеюсь, вам это понравится. До скорого!