Stepstone Group, в которой работает около 4000 сотрудников, является компанией, которая вносит значительный вклад в то, как соискатели находят свою следующую возможность карьерного роста, а работодатели находят свои новые таланты. Имея большой набор различных межфункциональных команд, включающих более 1000 человек, занимающихся продуктами, технологиями и маркетингом, мы создаем инфраструктуру для JobTech, то есть для оцифровки рынка труда и повышения его функциональности. Чтобы привести конкретный пример таких улучшений, платформа StepStone объединяет и обогащает данные из различных областей, касающиеся интересов соискателей и текущего рыночного спроса. Обогащенные данные затем могут использоваться автоматизированными процессами, основанными на машинном обучении, для более эффективной поддержки компаний в определении их потребностей в найме и обеспечении того, чтобы они находили нужные таланты.

Создание рабочих мест

В этой миссии тесно связанные области науки о данных, инженерии данных и инженерии машинного обучения играют ключевую роль: чтобы сделать процессы умными, беспроблемными и полезными, важно иметь правильные данные и возможность извлекать соответствующую информацию, содержащуюся в них. это. Например, анализ миллионов вакансий позволяет выявить трендовые навыки на рынке, а знание того, что пользователи ищут на StepStone, помогает понять, какие варианты работы наиболее привлекательны для людей с определенным профилем. И чтобы вся экосистема работала без сбоев, различные процессы должны взаимодействовать друг с другом, чтобы эта информация была доступна в нужных точках принятия решений. Хотя создание такой экосистемы требует согласования нескольких доменов, начиная от бизнеса и продаж и заканчивая архитектурой, инфраструктурой и проектированием платформ, наше внимание здесь сосредоточено на доменах данных.

Наука о данных в облаке: инфраструктура и готовые инструменты для обработки данных стали более совершенными

По мере того, как объемы данных увеличиваются, а типы данных становятся более разнообразными, набор доступных инструментов обработки данных также эволюционировал. Необходимость масштабирования не только изменила тип оборудования, на котором выполняются типичные процессы обработки данных (например, с локального оборудования на управляемые сервисы в облаке), но и типы алгоритмов стали более разнообразными и зрелыми. Например, значимость моделей глубокого обучения, таких как архитектура преобразователя, значительно возросла, поскольку они оказались особенно полезными в обработке естественного языка. Большая часть данных в StepStone представляет собой текстовые данные, поэтому эти методы позволяют использовать содержащуюся в них ценную информацию. Вторым примером является семейство методов форсированного дерева, таких как xgboost и lightGBM, которые показали себя очень эффективными и теперь часто используются для решения задач небольшой и средней сложности.

Эта эволюция методов, очевидно, не является специфической для StepStone, но отражает ускорение оцифровки и соответствующее увеличение доступных данных, а также ценность, которую можно извлечь из них (см. здесь). Кроме того, влияние covid и необходимость понять его временную эволюцию увеличили использование методологий прогнозирования.

От отдельных процессов к системам

Увеличивающийся масштаб объемов данных и потенциальное влияние идей науки о данных на бизнес-процессы также способствовали профессионализации того, как мы применяем модели науки о данных. Например, возможность эффективного доступа к большим объемам данных и их объединения с помощью распределенных систем, таких как Apache Spark, или высокоэффективных баз данных, таких как Amazon Redshift, позволяет теперь получать информацию от гораздо большего числа соискателей. Кроме того, управляемые сервисы, такие как AWS Sagemaker, позволяют гибко масштабировать вычислительную инфраструктуру, на которой можно обучать модели машинного обучения, в зависимости от размера и сложности задействованных наборов данных и моделей. Эти две разработки позволяют специалистам по данным экспериментировать со множеством различных комбинаций данных и моделей. Поэтому неудивительно наблюдать эволюцию таких платформ, как MLFlow, которые позволяют отслеживать эти эксперименты, следить за тем, какие комбинации были успешными, и выбирать лучшие для развертывания. Такие инструменты для операций машинного обучения (MLOps) сокращают затраты на разработку и поддержку новых моделей обработки данных, обмен ими с другими специалистами по данным и мониторинг их производительности после того, как они будут запущены в производство. Кроме того, они делают возможным и прибыльным создание новых типов систем, управляемых событиями, которые работают и обучаются в режиме реального времени. Эти разработки не только ускоряют создание ценности из конкретных идей, но также позволяют использовать системы с процессами, которые взаимодействуют и слушают друг друга. Это имеет огромный потенциал для синергии, но также требует понимания потенциального влияния адаптивных, самообучающихся механизмов и понимания того, как мы можем сделать такие процессы беспристрастными, справедливыми и надежными (см. здесь).

Этот последний пункт объясняет растущую важность этики данных — растущее влияние науки о данных требует не только понимания вовлеченных технических аспектов, но и учета социального воздействия, которое такие социально-технические системы оказывают на различных уровнях. Эти эффекты могут варьироваться от микроскопических эффектов (например, беспристрастность индивидуальных рекомендаций) до мезоскопических последствий (например, справедливость в отношении нескольких целевых аудиторий и распределения талантов среди работодателей, например гендерная предвзятость) до макроскопических последствий (насколько устойчивы такие процессы, насколько C02 они производят?). Ожидайте больше материалов по этим темам в наших следующих сообщениях в блоге J

Углубленное внедрение науки о данных в бизнес: межфункциональные команды

Крылатая фраза «форма следует за функцией» верна не только в природе, но и является важным наблюдением для организаций. Идея о том, что характеристики программного обеспечения, созданного в команде, отражают ее организационную структуру, может быть изменена для повышения производительности. Использование этого понимания для формирования организационного дизайна получило название «обратный маневр Конвея». Это одна из причин, по которой в StepStone мы решили создать автономные, наделенные полномочиями, кросс-функциональные команды во многих продуктовых, технических и маркетинговых областях. Эта организационная структура облегчает создание модульных программных систем, состоящих из повторно используемых строительных блоков, которые просты в использовании, надежны и способствуют творческому мышлению, позволяющему комбинировать их по-новому. Большинство наших кросс-функциональных команд работают в спринтах, с некоторыми всплесками исследований, чтобы сбалансировать предоставление функций и фазы ограниченных по времени исследований.

Чтобы поддерживать критическую массу специалистов по данным в тесном обмене, мы также внедрили модель глав, которая органично объединяет специалистов по данным из разных команд. Эта горизонтальная структура обеспечивает поддержку карьеры, облегчает обмен знаниями между учеными данных в разных командах и помогает создать сообщество, которое является разнообразным, инклюзивным и в котором интересно быть частью.

Такое сочетание задач, которые мы решаем, технологического стека и организационной структуры делает StepStone довольно междисциплинарным местом для работы в области науки о данных и помощи в поиске решений для ужесточающегося рынка труда — одной из крупных грядущих социальных проблем.

Узнайте больше о технологиях, которые мы используем, или ознакомьтесь с нашей организацией и процессами.
Заинтересованы в работе в StepStone? Посетите нашу страницу вакансий.