Автор Кэт Кэмпис

Инженеры данных, аналитики данных и специалисты по обработке и анализу данных – ценные помощники в компаниях любого размера и масштаба. Но у каждого из них своя работа.

Специалисты по данным, инженеры данных и аналитики данных выполняют одну важную общую задачу: они применяют анализ к данным. Конечно, в каждой должностной инструкции есть дополнительные перекрывающиеся компоненты, а специалист по данным — новичок в этом блоке.

Учитывая совпадение должностей, малые и средние предприятия, которые задаются вопросом, нужен ли им специалист по данным, склонны думать, что специалисты по данным помогут спроектировать инфраструктуру их баз данных и управлять потоком данных. Или они считают, что новая блестящая панель аналитики, которую они только что внедрили, принадлежит их исследователю данных (или аналитику данных, если уж на то пошло).

Это не означает, что у специалиста по данным нет навыков, чтобы помочь вам решить, какая конструкция хранилища данных соответствует вашим бизнес-целям и задачам. И специалисты по данным анализируют данные с помощью некоторых из тех же инструментов, что и аналитик данных. Однако ожидаемые «рабочие продукты» различны и во многом зависят от прогнозов и выводов с использованием машинного обучения и статистических инструментов.

Машинное обучение и статистика — это не совсем одно и то же — главное отличие заключается в назначении результатов. Мы скоро вернемся к этому.

Инженеры данных

Инженеры данных — ваши архитекторы данных. Нужна функциональная база данных, которая точно собирает и хранит структурированные, полуструктурированные и неструктурированные данные? По мере роста бизнеса они будут использовать различные инструменты для масштабирования инфраструктуры. Больше данных означает большую нагрузку на вашу текущую систему. Инженер данных — это супергерой вашей архитектуры, который развертывает инструменты управления данными и хранилища данных, такие как Hadoop, Redshift, Google BigQuery, SQL, Java и так далее.

Аналитики данных

Аналитики данных существуют уже несколько десятилетий, а возможно, и дольше. Они собирают данные и выполняют различные описательные статистические расчеты для определенного набора данных, который они извлекли (с помощью инженера данных). Затем аналитики данных сообщают о результатах. Поскольку они часто работают с Excel, SAS, SPSS, IBM Watson или каким-либо другим аналитическим программным обеспечением, им не нужно знать сложную математику, лежащую в основе количественного анализа. Это помогает, если они это делают, но их основная роль заключается в переводе этих чисел в что это означает на нематематическом языке?

Ученые данных

Ожидается, что специалисты по данным пойдут глубже. Они извлекают конкретный — часто огромный — набор данных, чтобы ответить на конкретный вопрос, и проверяют данные с помощью машинного обучения и статистических алгоритмов. Конечно, некоторым предприятиям потребуется, чтобы мы знали SQL (или его версию) для обработки данных из базы данных. Они также используют Excel, SAS, SPSS и IBM Watson, чтобы получить обзор данных.

Ожидается, что специалисты по данным также будут выполнять некоторую форму извлечения, загрузки и преобразования (или извлечения, преобразования и загрузки, если нам нужно сначала очистить данные). Частично программист и частично статистик, базовый набор инструментов для обработки данных состоит из R, Python, C++ и Matlab (хотя компании могут потребоваться дополнительные языки в зависимости от их внутренней инфраструктуры). Подробнее:Аналитика масштаба предприятия с помощью R — технический документ

Специалисты по данным создают или используют алгоритмы машинного обучения, чтобы помочь масштабировать прогнозы. (См.: Как применить машинное обучение к обработке событий). Но они также используют сложное статистическое моделирование, чтобы определить, имеет ли ответ на их первоначальный вопрос надежный вывод — то есть его можно обобщить — для населения в нашем наборе данных. Прогнозирование и вывод — это не совсем одно и то же, и одна из черт эксперта в области данных — это знание и разработка инструментов, демонстрирующих его знание этого различения.

Инженеры данных, аналитики данных и специалисты по обработке и анализу данных являются ценным дополнением к компаниям любого размера и масштаба. Надеюсь, теперь стало ясно, как каждый из них вносит уникальный вклад в мир данных.

Предыдущая: Что делает специалист по данным?

Далее: Почему будущее науки о данных — в психологии данных

Первоначально опубликовано на www.rtinsights.com 24 мая 2017 г.