Вот как проекты Enterprise Data Science должны работать.

  1. Цель — компания определяет вопрос, ответ на который дает некоторую надежду на улучшение бизнеса.
  2. Данные — компания идентифицирует, собирает и очищает данные, которые они могут использовать.
  3. Понимание — специалисты по данным анализируют и моделируют данные, создают причудливые диаграммы и бум… они получают полезную информацию о компании.
  4. Внедрение — затем компания берет информацию из проекта и улучшает свои процессы таким образом, чтобы заработать больше денег.

Есть так много способов, в которых каждая часть этого процесса может пойти не так.

Цель, пожалуй, самая простая, но все же сложная. Вам нужен кто-то практичный, принимающий решения об инвестициях, и, к сожалению, для этого нужен кто-то, у кого есть как технические ноу-хау, чтобы понять возможное, так и умение продавать, чтобы иметь возможность продавать ценность. Это редкость.

Данные часто бывают неверными, потому что данные в чем-то неверны. Он неполный, имеет проблемы с форматированием, распределен по множеству неорганизованных источников… Существует буквально бесконечное количество способов, которыми это можно испортить, а также бесконечное количество маленьких способов, которыми это можно исправить. Вот почему Data Engineering — это не только наука, но и искусство.

Традиционно самой сложной частью всего этого процесса является фактическая реализация. Для этого требуется, чтобы выводы были хорошими и действенными (нетривиальная задача), а затем требуется, чтобы компания действительно захотела измениться на основе выводов. Компаниям дешево на словах полагаться на данные, но дорого — с точки зрения времени, людей и процессов — фактически управляться данными. К сожалению, для многих специалистов по данным они в конечном итоге оказываются в ситуациях, когда они становятся: 1) прославленными разработчиками программного обеспечения, которые используют данные больше, чем средний разработчик, 2) аналитиками, бесконечно создающими и настраивающими исполнительные информационные панели, или 3) своего рода малоиспользуемым консалтингом. служба, которая могла бы время от времени создавать внутренний инструмент.

По мере того, как наука о данных развивалась, компании, возможно, стали намного лучше в частях 1 и 4. Но есть новая и растущая проблема… Данные.

Новые и некоторые не такие уж новые правила конфиденциальности данных из Китая, Калифорнии и ЕС начали жестко ограничивать то, что компании могут и не могут делать с данными, которые они собирают. Штрафы начинают складываться в копеечку даже для средних компаний. И, к сожалению, сами правила почти невозможно соблюдать, и они достаточно расплывчаты на данный момент, чтобы создать своего рода регулятивный паралич в любых компаниях с функционирующими отделами управления рисками.

Некоторые специалисты по данным старой школы (как до 2014 года) будут с тоской вспоминать дни, когда они могли получить доступ практически к любым данным, которые они хотели, чтобы они могли делать все, что захотят. В какой-то степени этот тип открытости данных стал мощным двигателем значительного прогресса, которого мы добились в машинном обучении за последнее десятилетие. Но теперь наиболее ответственно управляемые компании будут иметь настолько строгие методы управления рисками и данными, что процесс получения доступа к новым данным может занять месяцы взад и вперед с офисом соответствия.

В этом процессе комплаенс будет запускать «Оценку воздействия на конфиденциальность данных» и/или «Оценку воздействия на передачу», которые в основном представляют собой длинные контрольные списки, которые обеспечивают учет соответствующих рисков, выполнение основных задач (убедитесь, что вы получаете только те данные, которые вам нужны и не более того, извлеките личные данные и т. д.), и что есть сопровождающий контрольный след на случай, если что-то пойдет не так.

Откровенно говоря, этот процесс может серьезно подорвать способность большинства компаний иметь функционирующие и полезные подразделения Data Science. Если данные — это компания — в случае AdTech — они либо примут риск (в конце концов, регулирующие органы настолько хороши в обеспечении соблюдения правил), либо найдут какой-то обходной путь, но я предполагаю, что многие компании (в некоторой степени справедливо) слишком не склонны к риску и слишком технологически стратифицированы, чтобы легко продолжать работу с данными в обычном режиме.

Однако хорошо, что есть способы продвижения вперед, которые я изложу в нескольких последующих сообщениях в ближайшие пару недель.

*Мнения, выраженные в моих сообщениях, являются моими собственными и не отражают точку зрения моего работодателя*