Сегодня наука о данных получает все заголовки. Если вы откроете любую газету, вы, скорее всего, найдете статью о каком-то ее аспекте. Илон Маск заявляет, что мы должны беспокоиться об ИИ; тем не менее, Билл Гейтс говорит, что это облегчит жизнь.

От классных функций, таких как самоуправляемый автомобиль, до более приземленных задач, таких как идентификация спама в почтовом ящике, новые приложения машинного обучения (МО) меняют наш образ жизни и работы. Фактически, 81% руководителей из списка Fortune 500 считали AI/ML важными для своего бизнеса в 2018 году. Если наука о данных меняет нашу жизнь, то почему инженерия данных так важна?

Даже несмотря на всю эту шумиху и шумиху, ни одна из проблем, поднятых такими людьми, как Маск, сегодня не является реальностью. Вместо этого мы наблюдаем развитие всех технологий, которые должны быть на первом месте, чтобы сделать приложения для обработки данных успешными.

Вот где в дело вступает инженерия данных.

1. Без проектирования данных у вас нет науки о данных

Без инженерии данных нет данных. Без данных нет ни машинного обучения, ни ИИ. Науке о данных нужны данные, на основе которых можно применять алгоритмы.

2. Инженерия данных увеличивает скорость передачи данных

Устаревшие данные не позволяют вам принимать решения в режиме реального времени для более точного прогнозирования таких вещей, как удержание клиентов, отток, мошенничество и т. д. Выявление мошеннических действий с кредитными картами через три недели бесполезно. Нам нужны не только данные для науки о данных, но и своевременные данные.

3. Больше данных — лучше прогнозы

В мире больших данных больше управляемых данных означает более точные прогнозы. Недостаток данных и возможность управлять тем, что доступно, тормозит многих наших клиентов. Хорошие модели, хорошее машинное обучение и хороший ИИ невозможны без хорошо управляемых конвейеров данных. Откровенно говоря, у наших клиентов из списка Fortune 500 таких каналов пока нет.

Приятно, что наши клиенты идут по этому пути. Мы живем во время перемен в пространстве данных. Большинство компаний находятся в процессе перехода от традиционной архитектуры к современной архитектуре данных. Эти организации используют инженерию данных для создания совершенно новых конвейеров данных с новыми технологиями, которые можно масштабировать и запускать в облаке.

В прошлом мы создавали традиционные хранилища данных, предоставляли отчеты бизнес-аналитики, а также улучшали и обслуживали эти платформы. Сегодня мы строим с помощью новых инструментов для современного мира. В старом мире все было очень дорого и не масштабировалось. Если у вас закончилось место в локальном центре обработки данных, вам придется купить еще одно дорогое устройство, прежде чем вы сможете добавить данные или вычислительные мощности. На это уйдут месяцы времени, усилий, энергии и затрат. В современном мире данных вы просто запускаете еще одну облачную службу за считанные минуты и сразу же можете масштабировать свои возможности по обработке данных.

Вот почему мы больше не строим хранилища данных. Вместо этого мы создаем озера данных и потоки данных в реальном времени. Нам нужна инженерия данных, чтобы построить трубопроводы, которые заполнят эти озера. Конвейеры соединяют данные с датчиков, подключенных устройств, социальных сетей и т. д. Но мы не просто отказываемся от старых источников. Конвейеры необходимы для передачи данных из устаревших систем, существующих хранилищ и устаревших приложений в одно место, где их можно использовать. Если вы не хотите, чтобы ваша компания осталась позади, убедитесь, что вы сейчас уделяете внимание своей обработке данных, чтобы вы могли перейти к расширенной аналитике и науке о данных, пока не стало слишком поздно.