В поисках единорогов по науке о данных

Взгляд интервьюера на поиск идеальных кандидатов на должности в области науки о данных, основанный на примерно 15 проведенных собеседованиях.

«Однажды у вас будет возможность взять интервью у кандидатов. Когда вы это сделаете, убедитесь, что вы очищаете множество слоев человека, как если бы вы чистили лук, чтобы увидеть, что на самом деле находится в основе». Несколько лет назад это был совет на прощание от одного из моих руководителей. Я удивлен, что это осталось со мной после четырех лет и стало одним из моих маяков, когда я прошел свой путь в качестве интервьюера, отбирающего кандидатов на роли специалиста по данным.

Недавно я провел собеседование с несколькими кандидатами на несколько должностей специалиста по данным в моей команде. Я размышлял над этим опытом, чтобы объединить принципы, чтобы придумать структуру интервью по науке о данных, которую я мог бы использовать и в будущем. Довольно часто, когда я спрашиваю людей в своей сети, как они выбрали того или иного кандидата на роль, я слышу ответы типа «догадка», «опыт» или «вы просто знаю”. Эта статья была моей попыткой отразить опыт интервью в рамках, выгодных как для интервьюируемых, так и для интервьюеров.

Фреймворк для поиска единорогов

Поскольку мы говорим о поиске идеальных специалистов по данным, нам необходимо определить основной вопрос: "Кто такой специалист по данным?". Есть несколько определений того, что значит быть специалистом по данным. У каждого своя версия, и, к сожалению, общепризнанной нет.

Следующая диаграмма на протяжении многих лет служила мне хорошей ментальной моделью для специалистов по данным. Как показано на приведенной выше диаграмме Венна, специалист по обработке и анализу данных — это тот, кто может сочетать программирование, статистику/машинное обучение и бизнес-знания, чтобы генерировать рекомендации/практические идеи на основе данных.

Итак, когда я начал свое путешествие по поиску специалистов по данным, я задавал вопросы, чтобы очистить различные слои, чтобы понять, что лежит в основе вышеупомянутых трех областей — программирование, математика и статистика и предметная область. За несколько собеседований и размышлений о кандидатах, которые оказались отличными находками и неудачниками, я усвоил урок, чтобы также искать более мягкие черты в процессе собеседования, чтобы получить окончательный результат высокоэффективного члена команды. люблю работать с. Если бы мне пришлось выбрать две главные черты личности, которые помогут человеку хорошо работать в команде по анализу бизнес-данных, это были бы а) эмпатия и б) любознательность.

Итак, проводя собеседование с кандидатом на роль специалиста по науке о данных, я стараюсь выделить несколько слоев в следующих 5 областях.

Бизнес-навыки/знание предметной области

Навыки программирования / работа с данными

Знания математики/статистики

Эмпатия

Любопытство

Итак, что следует учитывать в каждой из вышеперечисленных областей? Читайте дальше, чтобы узнать мой подход к оценке кандидатов в каждой из вышеперечисленных областей:

1. Бизнес-навыки/знание предметной области:

Я думаю, что лучший способ оценить опыт предметной области — это задать открытые вопросы, которые похожи на реальные проблемы, которые вы решаете. В большинстве случаев кандидаты не были из одной отрасли. Итак, вы также пытаетесь оценить, какую часть их опыта можно перенести в вашу отрасль. Еще один интересный способ оценки — спросить их, с каких элементов данных они начали бы искать ту или иную проблему. Ответ на этот вопрос обычно демонстрирует глубину и широту знаний кандидата в предметной области.

2. Навыки программирования / обработка данных:

Довольно часто, как специалист по данным, вы должны понимать: а) какие элементы данных доступны, и б) затем мучительно излагать их все для вас. Командам, занимающимся наукой о больших данных, в этом могут помочь инженеры данных и специалисты по моделированию данных. Но для небольших команд специалист по данным должен уметь претворять грубую идею в реальность, отслеживая данные и соединяя их вместе. Для контекста ожидалось, что для ролей, у которых брали интервью специалисты по данным, они будут работать с необработанными данными. Если это так, очень важно подтвердить, что кандидат готов заниматься обработкой данных и работать с грязными данными. По моему опыту, всегда полезно пояснить, что ваши ожидания совпадают с ожиданиями кандидатов, поскольку довольно часто здесь может быть несоответствие. Если кандидату нравится работать с грязными данными, перейдите к очистке нескольких слоев, задав несколько вопросов, чтобы оценить свои навыки.

3. Знание математики/статистики:

Поскольку профиль и опыт кандидатов в науку о данных могут сильно различаться — от специалистов по науке о данных, ориентированных на безопасность, до специалистов по кредитным рискам и кандидатов из розничной торговли — я предпочитаю двухэтапный подход к оценке навыков в этой области. На первом этапе оцените понимание ключевых принципов, концепций машинного обучения и алгоритмов. Во втором аспекте глубоко погрузитесь в некоторые проекты, над которыми человек работал в прошлом. В этом глубоком погружении важно выяснить, как кандидат формулирует концепции машинного обучения на основе первых принципов* и как кандидат формулирует преимущества для бизнеса. Один из способов сделать это — попросить кандидата объяснить проект заинтересованному лицу, которое ничего не понимает в методах машинного обучения. Затем расскажите кандидату о гипотетическом стажере по науке о данных, которому немного не хватает основ, и ожидается, что кандидат повысит свои навыки в рамках своей роли. Спросите кандидата, как он объяснит проект гипотетическому кандидату-стажеру, раскрывая все технические детали?

4. Эмпатия:

Как ученый данных, работающий в бизнес-команде, кандидат, скорее всего, будет тесно сотрудничать с бизнес-командой, которая действительно хороша в управлении своим бизнесом, но может не так хорошо разбираться в математике/статистике. Таким образом, очень важно, чтобы кандидаты обладали эмпатией, чтобы иметь возможность сформулировать сложные концепции в легком для понимания формате.

5. Любопытство:

Область науки о данных постоянно развивается, и всегда есть новые методы, которые сделают ваши текущие усилия еще лучше. Несмотря на то, что эмпатию и любопытство оценить труднее, вот мой любимый вопрос для их оценки: "Опишите ситуацию, когда вам пришлось сделать что-то очень сложное" . Вы много услышите о сложной проблеме, которую им пришлось решать. Затем спросите: Теперь, если бы вам пришлось вернуться назад, вам дали эту задачу, и вам пришлось бы переделывать ее заново, как бы вы это сделали? Это хороший вопрос, чтобы раскрыть любопытство и способность кандидата размышлять и улучшать ситуацию. Довольно часто область науки о данных постоянно меняется, и почти всегда есть лучший способ сделать что-то, связанное с новыми исследованиями. Подробнее об истории этого вопроса читайте в эпилоге*.

Что, если в процессе собеседования они преодолели пороговые значения во всех 5 вышеперечисленных областях. Значит, ответ — да? Скорее всего. Если вы не заметили никаких нарушителей условий сделки, ответ — да. Итак, каковы препятствия, которые могут дисквалифицировать кандидата, даже если он достаточно хорошо ответил на вопросы, охватывающие 5 областей?

Нарушители условий сделки

Есть несколько аспектов, которые являются абсолютными преградами в процессе собеседования.

  1. Честность. Это несложно. Если у вас есть конкретные доказательства того, что кандидат солгал в процессе собеседования, кандидат не должен проходить в следующий тур, даже если он блестяще выполнил все 5 пунктов, упомянутых выше. Я видел эту поверхность только как несоответствия между различными раундами интервью. Следовательно, очень важно делать сравнение записей с теми, кто делает другие раунды.
  2. Умение излагать свои мысли. Интервью — это стрессовый процесс для большинства людей. Следовательно, это вполне нормально немного возиться. Я считаю, что как интервьюер вы должны балансировать, создавая людям комфортные условия, чтобы они могли проявить себя с лучшей стороны, и вы можете оценить их навыки, имея возможность снять несколько слоев, чтобы понять истинного человека, стоящего за ними. С помощью этого тонкого баланса вы сможете получить четкое представление о способности кандидата формулировать концепции. Важно, чтобы кандидаты могли сформулировать как концепции, так и преимущества для бизнеса.

Эта статья была моей попыткой отразить догадку интервьюера в рамках интервью. Однако мой путь только начался. И по мере того, как я прохожу через другой жизненный опыт, мои попытки обязательно будут развиваться. Чаще всего на интервью отводится всего 1 час, и вам, вероятно, придется выделить минимум 15 минут на обзор, а также на вопросы. Таким образом, вам нужно полагаться на другие раунды собеседований и проверки рекомендаций, чтобы заполнить пробел в областях, подлежащих дальнейшей проверке.

Заключение

Я написал эту статью с точки зрения интервьюеров. Мне интересно узнать о вашем опыте работы по обе стороны стола для собеседований.

Опрашиваемым:

Сталкивались ли вы с каким-либо образцовым поведением интервьюеров, которые заставляли вас чувствовать себя комфортно, чтобы вы могли проявить себя с лучшей стороны, и в то же время им было удобно задавать вам сложные вопросы, чтобы снять с вас несколько слоев, чтобы понять истинного человека?

Интервьюерам

Есть ли у вас представление о различных должностях, на которые вы набираете сотрудников? Не могли бы вы поделиться их ментальной моделью?

Пожалуйста, поделитесь своими мыслями через комментарии.

Эпилог:

  • Несколько лет назад мне задали этот вопрос в одном из проваленных интервью. Когда у меня появилась возможность взять интервью, я пытался вспомнить каверзный вопрос, который мне однажды задали. Когда я случайно наткнулся на эту статью CNBC с Джули Чжо, все щелкнуло, и я был счастлив добавить ее в свой репертуар.
  • Что значит понимать вещи из первых принципов? По сути, это способность формулировать вещи с нуля. Например, если ваш кандидат работал над обработкой естественного языка и упоминает tf-idf. Затем вы, как интервьюер, продолжаете работу с tf-idf. Если кандидат может привести пример, сформулировать, как рассчитывается tf-idf и каковы плюсы и минусы, то есть мыслить исходя из первых принципов.

.