Итак, вы собираетесь управлять командой Data Science

Я видел то, во что вы бы не поверили. Сводные таблицы на панели инструментов. Сценарии R, сверкающие в темноте возле кластера Hadoop.

Но (с извинениями перед Рутгером Хауэром за похищение его удивительного монолога) я также видел, как много науки о данных делалось, прежде всего, технологии, без учета людей или процессов, и я подумал, что сформулирую некоторые идеи, которые по моему опыту ведения клиентов и партнеров через эти воды.

Как начинающий корпоративный антрополог, (выздоравливающий) технический директор и международный пастух, я часто удивляюсь тому, сколько внимания уделяется техническим навыкам и инструментам, а не созданию действительно работающей команды.

И как инженер по образованию (хотя и с отчетливо выраженным количественным изгибом), меня восхищает количество мнений о технологиях, наборах навыков и даже о типах данных, необходимых для успеха команды по анализу данных, потому что на самом деле очень мало достоверных данных о том, какие из этих факторов являются критическими.

Поэтому я собираюсь сделать шаг назад от вовлеченных технологий и науки и посмотреть, как должен работать процесс, а также некоторые вещи, которые следует учитывать при запуске группы по анализу данных независимо от вашего фон.

Люди, процессы, технологии

Несколько лет назад меня вбил (бывший мой технический директор), что совершенство - это процесс, и этот девиз запомнился мне, потому что он имел в виду совершенство как в личном, так и в командном смысле. рост, а не на ажиотажной технологической шумихе или сесть на поезд Шесть сигм.

Имейте в виду, инструменты и технологии критически важны, но вы должны смотреть на более широкую картину.

Возьмем, к примеру, глубокое обучение: Tensorflow может быть самой популярной библиотекой на данный момент, но Keras предоставит вам более приятную абстракцию, которая также позволит вам использовать CNTK в качестве серверной части и, возможно, получить более быстрый оборот, когда повторение проблемы, поэтому я бы сказал, что это должен быть инструмент более высокого уровня, в который вам (и вашей команде) нужно инвестировать.

Если вы посмотрите на долгую перспективу, использование диапазона чисто статистических / регрессивных подходов к RNN подразумевает глубокую приверженность не только с точки зрения изучения науки, лежащей в основе них, но и понимания того, где они вписываются в круг задач, которые вам нужно решить. .

И поверьте мне, выбор инструментов - это не то, чем вам нужно заняться в первую очередь - в первую очередь вам следует заняться своей командой, а затем контекстом, в котором она работает.

Первая ошибка

Первая ошибка, которую совершают организации (и менеджеры), - это думать, что специалисты по обработке данных, отчитывающиеся перед вами, - это вся ваша команда.

Независимо от того, сколько люди говорят о матричном управлении и необходимости в кросс-функциональных командах, существует естественная человеческая тенденция рассортировать людей (и вещи) по красивым, аккуратным корзинам, и когда вам нужно мотивировать и направлять людей , здесь присутствует дополнительная предвзятость - в конце концов, ваша основная роль как менеджера состоит в том, чтобы убедиться, что команда, которую вы назначили, работает слаженно, а в науке о данных в наши дни (особенно в компаниях, новичках в этой области) также есть необходимость чтобы доказать свою ценность.

Под этим я подразумеваю ценность команды - вы можете быть гением самостоятельно, но ваша задача - убедиться, что ваша команда работает, и что цели и ожидания четко определены как внутри, так и снаружи. ваши прямые подчиненные.

Итак, ваша реальная команда состоит из заинтересованных сторон различного рода - владельцев продуктов, менеджеров и (что не менее важно) всех остальных на технических должностях, потому что то, что вы делаете (и ваши идеи получить) неизбежно влияет на остальную часть бизнеса, а также на то, как он создается / реализуется / развертывается / и т. д. Вы не существуете в вакууме, а скорее являетесь связующим звеном между данными, которые у вас есть (или, чаще всего, их нет), и тем, что бизнесу необходимо улучшить (и я намеренно избегаю здесь обратного потока, а именно: когда бизнес ставит перед вами задачу улучшить то, что уже реализовано).

Я видел очень похожую вещь раньше во время ажиотажа в отношении больших данных, и мы успешно справились с этим, создав «группы» людей для решения каждой конкретной проблемы - каждая группа состоит из обычного триумвирата специалистов по анализу данных. (который обычно является вам прямым подчиненным), разработчиком (который может быть, а может и не быть) и экспертом в предметной области (который обычно является владельцем продукта или заинтересованным лицом в бизнесе).

Я использую термин «исполнитель» выше, потому что в зависимости от проблемы, которую вы решаете, проблемная область может потребовать:

  • быстрая итерация по преобразованию данных (в этом случае эту роль следует выполнять разработчику или администратору баз данных)
  • создание визуализации данных (фронтенд-разработчик или дизайнер)
  • или выяснение того, как развернуть модель в масштабе (архитектор или гений DevOps)

В любом случае, чистый эффект заключается в том, что в более формальных организациях вам придется смешивать и согласовывать графики со своими коллегами по менеджменту, поэтому будет полезно, если вы сможете четко сообщить об общих целях и о том, какими навыками вам нужно заниматься. особая проблема.

Жить в соответствии с ролью, внутри и снаружи

У вас много практического опыта, ваша команда уважает вас, и вы позволяете себе участвовать во всевозможных обсуждениях, касающихся архитектуры, проектирования функций, выбора алгоритма и оценки модели - и это нормально и хорошо, за исключением того, что руководство не имеет к этому никакого отношения.

Управление командой требует, чтобы вы выходили из зоны комфорта и жонглировали приоритетами, придерживались дедлайнов, руководили карьерой людей и всеми беспорядочными, ненаучными атрибутами, которые присущи руководству людьми и достижению результатов в деловой среде.

Главное здесь - не стать жертвой синдрома самозванца - помните, вы получили работу не случайно, не так ли? И быть менеджером не означает, что вы перестанете заниматься наукой - на самом деле, вы, скорее всего, будете выполнять гораздо больше научной работы, чем обычно (но на более высоком уровне), просто потому, что вам нужно чтобы понять, чем занимается ваша расширенная команда, выявить подводные камни или препятствия и направить людей в правильном направлении.

А для этого вам нужно научиться эффективно общаться - не только внутри вашей команды, но и за ее пределами, и довольно часто с людьми, у которых нет такого же опыта (технического или иного).

Внедрение процессов

С поступлением работы и всеми вашими модулями подряд ваша команда начинает выстраивать цепочку проблем, которые нужно пройти (обычно с несколькими подзадачами, когда вы начинаете углубляться в детали). Так как же решить эти проблемы перед своей командой, сделав всех счастливыми?

Что ж, прежде чем мы займемся этим, нам нужно сделать шаг назад и подумать о том, как люди, скорее всего, будут проводить свое время.

По сути, существует два ограничения, связанных с расширением группы специалистов по анализу данных, и оба они сводятся ко времени: время, потраченное на понимание проблемы и разработку решения, и время, потраченное на его внедрение и развертывание.

На практике обычно происходит следующее:

  • 80% времени вашей команды будет потрачено на извлечение смысла из данных: поиск наборов данных, выполнение ETL и первоначальный выбор функций. Первая часть - это, безусловно, наименее привлекательная часть работы, но она хорошо согласуется с потребностью человеческого разума в интуитивном ощущении данных и предметной области, и вы должны уйти с дороги. Во что бы то ни стало делайте ежедневные стендапы (если это ваше дело), ​​сидите с командой и обсуждайте, что они делают, но старайтесь использовать свой собственный опыт только тогда, когда вас просят / требуют - не управляйте людьми на микроуровне, но помогите им взглянуть в будущее и превратить то, что они делают, в повторяемый процесс.
  • Остальные 20% времени обычно тратятся на выяснение того, как сделать ваши данные и модели доступными для остальной части компании - и именно на этом большинство команд по анализу данных экономят.

Так получилось, что предоставление науки о данных - это гораздо больше, чем создание отчетов и информационных панелей. Таким образом, вы (как менеджер) должны ожидать, что потратите много времени (возможно, до 80% в первые дни), преодолевая указанные выше 20% и работая со своей командой, чтобы изменить то, что они превратили их в повторяемый, измеримый процесс, используя инструменты непрерывной интеграции для сравнения моделей между итерациями или определяя систему сдержек и противовесов: какие функции были добавлены в модель? Как это работает с новыми наборами данных? Насколько быстро он устареет с учетом скорости обновления ваших данных (или бизнес-процессов)?

Хороший менеджер знает, что необходимо найти баланс между подходом «быстро провалиться» и не торопиться - во что бы то ни стало, пусть люди экспериментируют с новыми методами (это большая часть того, чтобы люди были счастливы), но определите критерий. вы собираетесь измерить результаты - ускорим ли мы переход от новой модели или инструментов? Работает ли он намного лучше, не влияя на производительность? Получаем ли мы побочные преимущества, такие как автоматическое устранение предубеждений или предотвращение переобучения?

Вначале это может занять значительно больше времени в зависимости от вашей компании, ресурсов и процессов, но идея здесь заключается в том, что по мере того, как вы начинаете предоставлять решения, вы будете создавать набор API, инфраструктуры или наборов данных, которые другие люди будет потреблять, определяя дорожную карту для них и повторяя их, поэтому мосты, которые вы строите с другими командами, будут здесь неоценимы.

Развивайте свою команду с помощью науки!

Достаточно скоро вы поймете, кто обладает способностями или опытом для решения конкретных проблем. Однако вместо того, чтобы назначать им все, что выглядит как гвоздь, возьмите этих людей и соедините их с кем-то еще, кто никогда не делал этого раньше.

Предложите им расширить свой кругозор и, опять же, превратить это в повторяемый процесс, но также представьте его своим коллегам. Сделайте шаг вперед, чтобы направить обсуждение, но помните, что личностный рост происходит от изучения новых вещей и их передачи, и что ваша команда будет более эффективной (и счастливой), если процессы будут понятны всем и если они ценят эти процессы как неотъемлемую часть своей работы.

Не зацикливайтесь на процессах как на эффективности и не начинайте подсчитывать KPI ради самих себя - скорее думайте о процессах как о добавлении структуры (и, следовательно, значения) к работе, которую вы все делаете, и возьмите лист (или два) из справочника Кайдзен.

Сделайте Data Science частью корпоративной культуры

Как только все остальное будет на месте, лучший способ убедиться, что организация понимает роль вашей команды, - это выйти за ее пределы, что означает еще раз использовать ваши коммуникативные навыки, чтобы:

  • Содействуйте культуре, ориентированной на данные, в других командах, давая понять, что на самом деле речь идет не о хранении кучи необработанных данных, а о том, чтобы убедиться, что наборы данных, которые у вас есть, четко идентифицированы и легкодоступны (с обычными оговорками относительно личной информации и надлежащая гигиена данных в этом отношении).
  • Согласуйте общие представления данных (или форматы мостов), которыми можно обмениваться с минимальными затратами на разработку / интеграцию, и об API-интерфейсах для других команд для доступа к обученным моделям, создаваемым вашей командой.
  • Решите действительно сложные проблемы, такие как переход от пакетно-ориентированных процессов к потоковой передаче событий. Для обнаружения мошенничества, механизмов рекомендаций и других основных продуктов, на которые полагаются компании, требуется мгновенный доступ к данным, и (исходя из опыта) нет ничего лучше, чем обработка потоковых данных, как с технической точки зрения, так и с точки зрения бизнеса.
  • Понять, чего хочет бизнес. Все, что действительно необходимо, на самом деле невозможно (даже если это кажется трудным, учитывая шумиху вокруг науки о данных в наши дни), и будет много терпеливых людей, которые будут терпеливо возвращать людей в сферу осуществимости, но помните, что вы были выбраны в качестве менеджера потому что вы умеете наводить мосты во всех отношениях.

Прежде всего, не волнуйтесь - вы все еще занимаетесь наукой о данных

Даже если что-то из вышеперечисленного поначалу не дается вам естественно, не волнуйтесь. У вас все будет в порядке, если вы продолжите переучивать свою собственную ментальную модель того, какую роль ваша команда (и вы) должны играть в более широкой картине.

И будьте уверены, что вы сможете потратить много времени на настоящую науку о данных, хотя бы потому, что большинство бизнес-и командных аспектов, описанных выше, развиваются намного медленнее, чем вы ожидали. - нет алгоритма градиентного спуска для оптимизации человеческих организаций, и, учитывая все обстоятельства, я думаю, что это хорошо.

(эта статья изначально появилась в LinkedIn)