Что делает хорошего специалиста по данным?

«Специалист по данным» считается лучшей работой в мире. И мы знаем почему. Практически каждой крупной компании потребуется стратегия обработки данных, чтобы выжить в следующие десять лет. Они соревнуются за элитный пул талантов.

Как до этого дошло? И есть ли решение?

Как ученые решили судьбу бизнеса.

Специалисты по обработке данных - это ученые, которые занимаются наукой с данными компании. И, как и все ученые, они представляют собой сочетание двух частей.

Первая часть ученого интуитивна. Почти все научные открытия обусловлены такими мягкими качествами, как дисциплина, творчество, настойчивость, дальновидность и интуиция. Большинство ученых руководствуется догадками. Это тот навык, который уже есть у бизнеса. Они являются экспертами в предметной области во всех аспектах и ​​обладают убийственными инстинктами. Их называют стратегами, руководителями операций, руководителями маркетинга.

Вторая часть - техническая. Вы доказываете догадку с данными.

В какой-то степени это может быть у компании, но ученые (обычно) идут гораздо глубже. У них есть количественные навыки, чтобы анализировать большие наборы данных и находить закономерности в этих данных. Мы говорим о геноме человека, LHC в ЦЕРНе или мозге. Эти навыки родились в академических кругах. В типичной компании таких навыков нет ни у кого.

Вот почему компаниям необходимо нанять специалиста по данным.

И они не могут просто нанять кого-то, у кого есть вторая часть, например, статистика. Если они не поймут миссию бизнеса, не поймут, что действительно важно для успеха бизнеса, и не будут иметь правильного интуитивного представления о том, что искать, они не добьются успеха. Как и в «настоящей» науке, наукой о данных движет интуиция, или первая часть. Это более важно, чем вторая часть. Бизнесы выжили задолго до того, как появились специалисты по данным. Даже без методов «больших данных» они прекрасно понимали своих потребителей и свой рынок.

Вот почему специалист по данным - такая элитная профессия. Им необходимо обладать интуицией и знанием предметной области (первая часть), а также техническими навыками для анализа данных (вторая часть). Левое полушарие и правое полушарие. И хорошие коммуникативные навыки не помешают. По правде говоря, это очень сложно, и редко можно найти специалиста по данным, который получил бы очень высокие баллы по всем этим критериям. Обычно это компромисс.

Это оставляет бизнес в странном месте. У них очень талантливые люди с интуицией. Но они не могут получить доступ к данным напрямую, чтобы проверить, верны ли они. Им нужно объяснить их специалисту по данным, который затем переводит их в технический анализ, который затем переводит обратно на естественный язык, который затем объясняет исходному человеку.

Это довольно расточительно. Это заставляет задуматься ...

Что такого особенного в этих технических навыках?

Специалисты по обработке данных - это элитные таланты, потому что они привносят технические навыки в бизнес-аналитику. Как только вы это поймете, вам действительно захочется задаться вопросом, что же такого важного в этих навыках (и можем ли мы их обойти).

В общих чертах, хорошему специалисту по анализу данных необходимы два технических навыка.

  1. «изменение данных»: сбор всех данных вашей организации в один структурированный источник.
  2. «наука о данных»: поиск статистической информации о данных и потенциальное построение алгоритмов прогнозирования с помощью таких методов, как машинное обучение.

Как вы думаете, что проще автоматизировать?

Удивительно, но не в области науки о данных. Для решения многих стандартных задач науки о данных у нас уже есть системы, которые надежно превосходят специалистов по данным, например auto-sklearn. Готовые решения для рекомендательных систем, анализа временных рядов существуют и продаются как коммерческие решения.

Настоящая борьба для многих организаций заключается в том, чтобы получить данные в форме, позволяющей заниматься наукой о данных. Хорошо известно, что специалисты по обработке данных обычно тратят более 50% своего времени на этот процесс «подделки данных». Они жалуются на это (много) и считают, что это пустая трата драгоценного ресурса бизнеса.

Я не согласен - это, наверное, самое ценное, что они делают. Есть причина, по которой мы не можем автоматизировать этот процесс. И дело не только в том, что существует слишком много форматов данных, слишком много ошибок и проблем с качеством данных. Это потому, что нет информации о том, что на самом деле означают данные. Вам необходимо знать предметную область (то есть, что представляют собой данные), чтобы знать, есть ли у данных проблемы с качеством, и знать, как интегрировать их в вашу систему, а также понять, как объединить несколько наборов данных. Вам нужно быть человеком.

Обмен данными - это структурирование данных. Структура описывает, как ваши данные связаны между собой. Данные со структурой имеют значение. Технически это значение называется «онтология». Он связывает бессмысленные числа с реальными вещами в вашей организации: вашими клиентами, вашими ключевыми показателями эффективности, вашими артикулами. Существует четкая параллель с тем, что происходит в программном обеспечении: любой хороший инженер-программист скажет вам, что отличное программное обеспечение строится из отличных структур данных, и когда вы получите правильную структуру данных своей системы, программа практически сама себя пишет.

Появилась новая работа по структурированию данных. Его называют «инженером данных». Они похожи на инженеров-программистов, но в их навыках особое внимание уделяется технологиям больших данных (Hadoop, Spark) и структурам данных для их эффективного комбинирования.

Для устаревших корпоративных систем с большими данными (например, телекоммуникации, кредитные карты) инженеры по обработке данных могут создавать конвейеры обработки данных для структурирования данных в формате, пригодном для науки о данных и машинного обучения.

Современные технологические инфраструктуры спроектированы с нуля для поддержки такого рода анализа. Они даже могут использовать готовые решения, в которых данные структурированы по умолчанию и могут автоматически подключаться к внешним системам.

Жизнь за пределами науки о данных.

Специалист по данным - это человек, который может объединить три довольно сложных навыка:

  1. Интуиция, основанная на понимании бизнеса
  2. Анализ данных: использование методов для поиска закономерностей в данных
  3. Структурирование данных: превращение разрозненных корпоративных данных в готовый ресурс для науки о данных

Это сложный набор навыков, и неудивительно, что рынок перенасыщен. Более того, совмещать в одной роли три совершенно разных навыка кажется странным. Бизнес никогда бы не совмещал в одной роли вашего руководителя по продажам, технического руководителя и руководителя стратегии. Так почему именно эти трое?

Я не думаю, что это продлится долго. По мере того, как роль науки о данных в организациях становится ясной, роль специалиста по данным будет фрагментирована на эти три четкие функции. Каждый из них будет выполняться профессиональным специалистом или автоматически. Это зависит от специфики компании (чем более уникален ваш бизнес, тем меньше вероятность того, что вы сможете его автоматизировать - и все это на самом деле не относится к технологическим компаниям). Это решит проблему нехватки специалистов по обработке данных.

Существует множество рыночных вертикалей с тысячами компаний со схожими потребностями в данных. Возьмем розничную торговлю кирпичом и строительным раствором. У вас есть данные POS. Каждая продажа происходит в магазине и одновременно. Каждая продажа ссылается на идентификатор клиента (например, кредитную карту), и это связывает продажи вместе. Каждая продажа включает идентификаторы продуктов, которые можно связать с категориями и подкатегориями. Эти основы не меняются между тысячами и сотнями тысяч мелких и крупных розничных сетей по всему миру. Почему каждая из этих сетей и магазинов должна нанимать специалистов по обработке данных для выполнения одной и той же работы (структурирования своих данных о торговых точках и продажах)? В частности, все они используют общий набор POS-систем и приложений, которые едва поддерживают 100–1000 различных поставщиков.

Вы можете представить себе систему Plug and Play для всех этих провайдеров, чтобы структурировать данные. (Это навык 3).

И вы можете себе представить, что анализы тоже идут «из коробки» (поскольку они не будут различаться для разных предприятий розничной торговли). (Навык 2).

А затем - передайте это настоящему эксперту в предметной области. Ваш аналитик по работе с клиентами, ваши бизнес-консультанты, лица, принимающие решения. (Навык 1)

Навык специалиста по данным сохранится (хотя многие станут инженерами данных, поскольку возникнет потребность в этой роли). Но в бизнес-случаях, когда анализ данных является стандартным (интерпретация является творческой частью), появятся инструменты, которые позволят существующим нетехническим сотрудникам продолжить работу, обладая превосходными знаниями предметной области, одновременно используя всю мощь своих данных.

Однажды я слышал, что в 80-е годы люди думали, что нам нужно обучить миллионы инженеров-программистов, чтобы удовлетворить потребности бизнеса.

Что случилось? Мы написали программное обеспечение, которое отвлекало пользователя от написания самого программного обеспечения. Ярким примером является Microsoft Excel, но есть и другие.

То же самое происходит и сейчас.