LinkedIn использует несколько очень инновационных методов машинного обучения для оптимизации рекомендаций кандидатов.

Недавно я начал новый информационный бюллетень, посвященный образованию в области искусственного интеллекта. TheSequence - это информационный бюллетень, ориентированный на искусственный интеллект (то есть без рекламы, без новостей и т. Д.), На чтение которого уходит 5 минут. Наша цель - держать вас в курсе проектов, исследовательских работ и концепций машинного обучения. Пожалуйста, попробуйте, подписавшись ниже:



LinkedIn - одна из любимых платформ для набора персонала на рынке. Каждый день рекрутеры со всего мира полагаются на LinkedIn, чтобы найти и отфильтровать кандидатов для конкретных карьерных возможностей. В частности, LinkedIn Recruiter - это продукт, который помогает рекрутерам создавать и управлять кадровым резервом, который оптимизирует шансы на успешный найм. Эффективность LinkedIn Recruiter обеспечивается невероятно сложной серией алгоритмов поиска и рекомендаций, которые используют современные архитектуры машинного обучения с прагматизмом реальных систем.

Не секрет, что LinkedIn была одним из софтверных гигантов, раздвигающих границы исследований и разработок в области машинного обучения. Помимо создания одного из самых богатых наборов данных в мире, LinkedIn постоянно экспериментирует с передовыми методами машинного обучения, чтобы сделать искусственный интеллект (ИИ) первоклассным гражданином LinkedIn. Опыт рекомендаций в их продукте Recruiter требовал всего опыта LinkedIn в области машинного обучения, поскольку это оказалось уникальной задачей. Помимо работы с невероятно большим и постоянно растущим набором данных, LinkedIn Recruiter должен обрабатывать произвольно сложные запросы и фильтры и предоставлять результаты, соответствующие определенным критериям. Среда поиска настолько динамична, что результат действительно сложно смоделировать как проблемы машинного обучения. В случае Recruiter LinkedIn использовал трехфакторный критерий для определения целей модели поиска и рекомендаций.

1) Релевантность: результаты поиска должны не только возвращать релевантных кандидатов, но и выявлять кандидатов, которые могут быть заинтересованы на целевой позиции.

2) Анализ запросов. Результаты поиска должны возвращать не только кандидатов, которые соответствуют определенным критериям, но и схожим критериям. Например, поиск по машинному обучению должен возвращать кандидатов, которые указали науку о данных в своих наборах навыков.

3) Персонализация: очень часто поиск идеальных кандидатов для компании основан на совпадении атрибутов, выходящих за рамки критериев поиска. В других случаях рекрутеры не уверены, какие критерии использовать. Персонализация результатов поиска - ключевой элемент любого успешного поиска и рекомендаций.

Четвертый ключевой критерий поиска и рекомендаций LinkedIn Recruiter, который не так заметен, как предыдущие три, - это его ориентация на простые показатели. Чтобы упростить рекомендации, LinkedIn смоделировал ряд ключевых показателей, которые являются осязаемыми индикаторами успешного найма. Например, количество принятых сообщений InMails кажется четким показателем для оценки эффективности процессов поиска и рекомендаций. С этой точки зрения LinkedIn использует эти ключевые показатели как цель максимизации своих алгоритмов машинного обучения.

Наука: от линейной регрессии к деревьям решений с градиентным усилением

Первоначальный поиск и рекомендации в LinkedIn Recruiter основывались на моделях линейной регрессии. Хотя алгоритмы линейной регрессии легко интерпретировать и отлаживать, им не удается найти нелинейные корреляции в больших наборах данных, таких как LinkedIn. Чтобы улучшить этот опыт, LinkedIn решил испытать деревья принятия решений с градиентным усилением (GBDT), чтобы объединить различные модели в более сложную древовидную структуру. Помимо большего пространства гипотез, GBDT имеет несколько других преимуществ, таких как хорошая работа с коллинеарностью функций, обработка функций с разными диапазонами и отсутствующими значениями функций и т. Д.

GBDT сам по себе обеспечил некоторые ощутимые улучшения по сравнению с линейной регрессией, но также не смог решить некоторые ключевые проблемы, связанные с поиском. В известном примере поиск стоматологов возвращал кандидатов с должностями в области разработки программного обеспечения, поскольку модели поиска отдавали предпочтение кандидатам, ищущим работу. Чтобы улучшить это, LinkedIn добавил ряд контекстно-зависимых функций, основанных на методе, известном как попарная оптимизация. По сути, этот метод расширяет GBDT с целью попарного ранжирования, чтобы сравнивать кандидатов в одном контексте и оценивать, какой кандидат лучше соответствует текущему контексту поиска.

Еще одна проблема, с которой сталкивается LinkedIn Recruiter, - это подобрать кандидатов с соответствующими титулами, такими как «Специалист по данным» и «Инженер по машинному обучению». Такого типа корреляции трудно добиться, просто используя GBDT. Чтобы решить эту проблему, LinkedIn представила методы изучения представления, основанные на функциях семантического сходства встраивания сети. В этой модели результаты поиска будут дополняться кандидатами с похожими заголовками в зависимости от релевантности запроса.

Пожалуй, самой сложной проблемой, которую нужно было решить в LinkedIn Recruiter, была персонализация. Концептуально персонализацию можно разделить на две основные группы. Персонализация на уровне сущности фокусируется на включении предпочтений для различных сущностей в процессе найма, таких как рекрутеры, контракты, компании и кандидаты. Чтобы решить эту проблему, LinkedIn использовал хорошо известный статистический метод под названием Generalized Linear Mixed (GLMix), который использует логический вывод для улучшения результатов задач прогнозирования. В частности, LinkedIn Recruiter использовал архитектуру, которая сочетает в себе функции обучения для ранжирования, функции древовидного взаимодействия и оценки модели GBDT. Функции обучения ранжированию используются в качестве входных данных для предварительно обученной модели GBDT, которая генерирует ансамбли деревьев, которые закодированы в функции взаимодействия с деревом и оценку модели GBDT для каждой точки данных. Затем, используя оригинальные функции обучения для ранжирования и их нелинейные преобразования в виде древовидных функций взаимодействия и оценок модели GBDT, модель GLMix может обеспечить персонализацию на уровне рекрутера и на уровне контракта.

Другой тип модели персонализации, требуемый рекрутером в LinkedIn, больше ориентирован на взаимодействие во время сеанса. Недостатком использования моделей с автономным обучением является тот факт, что, когда рекрутер изучает рекомендованных кандидатов и предоставляет обратную связь, эта обратная связь не принимается во внимание во время текущего сеанса поиска. Чтобы решить эту проблему, LinkedIn Recruiter использовал метод, известный как модели многоруких бандитов, чтобы улучшить рекомендации для различных групп кандидатов. Архитектура сначала разделяет пространство потенциальных кандидатов для работы на группы навыков. Затем используется модель многорукого бандита, чтобы понять, какая группа более желательна, исходя из текущих намерений рекрутера, и рейтинг кандидатов в каждой группе навыков обновляется на основе обратной связи.

Архитектура

Поиск и рекомендации LinkedIn Recruiter был основан на собственном проекте под названием Galene, построенном на основе поискового стека Lucene. Модели машинного обучения, описанные в предыдущем разделе, способствуют созданию индекса для различных сущностей, которые используются в процессе поиска.

Модель ранжирования в системе поиска рекрутеров основана на архитектуре с двумя фундаментальными уровнями.

  • L1: попадает в кадровый резерв и оценивает / ранжирует кандидатов. На этом уровне поиск и ранжирование кандидатов выполняются распределенным образом.
  • L2: уточняет талант, указанный в коротком списке, для применения дополнительных динамических функций с использованием внешних кешей.

В этой архитектуре система брокера Galene разветвляет запрос поискового запроса на несколько разделов индекса поиска. Каждый раздел извлекает совпадающие документы и применяет модель машинного обучения к полученным кандидатам. Каждый раздел ранжирует подмножество кандидатов, затем брокер собирает ранжированных кандидатов и возвращает их федератору. Далее федератор ранжирует найденных кандидатов, используя дополнительные функции ранжирования, и результаты доставляются в приложение.

LinkedIn - одна из компаний, занимающихся созданием систем машинного обучения в больших масштабах. Идеи рекомендаций и методов поиска, используемые для LinkedIn Recruiter, невероятно актуальны для многих аналогичных систем в разных отраслях. Команда инженеров LinkedIn опубликовала подробную презентацию, которая дает больше информации об их пути к созданию системы рекомендаций мирового класса.