ИНЖИНИРИНГ ДАННЫХ

Как думать о данных

Настоящая разница между инженером данных и специалистом по данным - как они думают

Около десяти лет назад, когда работа в области науки о данных стала широко распространяться, в мире технологий появилось множество возможностей. Однако большинство компаний не понимали, что с этим делать. На одной из предыдущих работ я часто слышал фразы: мы занимаемся большими данными и занимаемся наукой о данных. Потому что рекламировалось, что специалисты по анализу данных получают большие зарплаты, аналитики данных, администраторы баз данных, инженеры по данным - все они хотят быть специалистами по данным; без понимания того, что нужно, чтобы быть одним из них.

Это не век специализации. Нужно быть универсалом, который на чем-то специализируется. Прямо как в жизни. Можно быть нейрохирургом и при этом водить машину. Нет ничего странного в том, что инженер по обработке данных и специалист по анализу данных работают в одном лице, но вряд ли можно увидеть это на практике, потому что это слишком широкая сфера ответственности. Точно так же очень маловероятно найти ночного нейрохирурга, который днем ​​водит Uber.

Специализация - насекомые - Роберт А. Хайнлайн

Работа инженера по обработке данных и специалиста по обработке данных одновременно - также возникает проблема погружения в огромный океан знаний в обеих этих областях, связанных с данными. Инженер данных должен уметь выполнять базовую работу по анализу данных, а специалист по данным должен уметь выполнять базовую инженерию данных. То же самое можно сказать и о других областях программного обеспечения. Например, инженер данных должен уметь выполнять базовую работу с внешним интерфейсом и так далее.

Сказав это, дело не столько в том, что умение различает все эти области, сколько в мыслительном процессе.

Неважно, что вы думаете, важно то, что вы думаете об этом - Кристофер Хитченс

Сантехники или нет

Один из моих менеджеров проводил интересную аналогию инженерии данных с водопроводом. Инженеры по обработке данных перемещают данные из одного места в другое. Точно так же, как газу для приготовления пищи или питьевой воде нужен трубопровод для перемещения от завода к вашему дому, данные нуждаются в трубопроводе для перемещения от одной системы к другой. Рискуя показаться грубым и унизительным, я не хочу продолжать эту аналогию, но, если подумать, она верна.

Инженеры по обработке данных - это водопроводчики, создающие конвейер данных, а специалисты по обработке данных - художники и рассказчики, придающие смысл статичному объекту, - Дэйв Бьянко

Инженеры по обработке данных - сантехники. Но они не только это. Помимо обеспечения передачи данных из одного места в другое, инженеры по обработке данных следят за тем, чтобы качество данных было хорошим для использования.

Они также оценивают, как данные будут использоваться, и на основании этого принимают решения о том, как их хранить, как лучше всего получить, обработать и так далее. Некоторые примеры: выбор между традиционными реляционными базами данных, хранилищами данных и хранилищами данных NoSQL или выбор между хранилищами данных, ориентированными на столбцы и строки, выбор планировщиков задач, выбор инфраструктуры обработки данных.

Специалист по обработке данных может быть водопроводчиком, а специалист по обработке данных - это тот, кто получает доступ к воде через водопроводные трубы и готовит лимонад.

Прочтите введение Роберта Чанга в разработку данных, состоящее из трех частей.

Вероятностное и детерминированное мышление

Давайте подойдем к основному различию между специалистом по обработке данных и специалистом по анализу данных. Очевидно, что названия должностей разные, KRA разные, но они наверняка могут пересекаться. Основное качество, которое отличает этих двух существ, - то, как они думают.

Инженер данных думает с точки зрения движения, строгости, предсказуемости, чистоты и устойчивости - данных и систем, передающих данные.

Между этими двумя подходами к обработке данных разительная разница - например, перемещение данных должно иметь качество детерминированности. Если какие-то данные должны поступать из одного места в другое, так и должно быть. Если преобразование должно было быть применено к набору данных для очистки или модификации, это должно произойти. В этом смысле инженерия данных должна быть предсказуемой, надежной, устойчивой - детерминированной.

Специалист по анализу данных думает с точки зрения извлечения ценности, улучшения процессов, принятия решений, затрат и прогнозирования.

Специалист по анализу данных не заботится о перемещении данных из одного места в другое - по крайней мере, не в качестве основной части работы. Специалист по данным отвечает на вопросы, используя данные, распознает закономерности (скрытые или очевидные), делает прогнозы, помогает принимать решения, помогает понять то, что не может понять даже человек, смотрящий на те же данные. Со всем этим работает специалист по данным. Следовательно, их работа становится - вероятностной.

Послесловие

В будущем работа в этих двух областях будет все больше и больше совпадать. Инженеры по обработке данных и разработчики программного обеспечения автоматизируют много повторяющейся работы специалистов по данным. Специалисты по обработке данных убедятся, что они могут работать независимо от инженера по данным, повысив квалификацию. Будущий специалист по данным или инженер по данным будут носить обе эти шляпы и очень хорошо разбираться в обеих областях - и, возможно, даже в большем. Как гласит цитата Роберта А. Хайнлайна: «Специализация предназначена для насекомых».