Публикуйте свое резюме по науке о данных лучше с помощью НЛП

Создание резюме очень сложно. У кандидата много дилемм,

· Стоит ли описывать проект подробно или просто упоминать минимум

· Упоминать ли многие навыки или просто указать его / ее основной навык компетенции

· Стоит ли упоминать много языков программирования или просто цитировать несколько

· Следует ли ограничивать резюме двумя страницами или одной страницей

Эти дилеммы одинаково сложны для специалистов по анализу данных, ищущих перемен, и даже для начинающих специалистов по данным.

Теперь, прежде чем вы задаетесь вопросом, к чему ведет эта статья, позвольте мне объяснить вам причину написания этой статьи.

Контекст

У моего друга есть собственная консалтинговая компания в области Data Science. Недавно он реализовал хороший проект, для которого потребовалось нанять двух специалистов по данным. Он разместил объявление о вакансии в LinkedIn и, к своему удивлению, получил около 200 резюме. Когда я встретился с ним лично, он заметил: «если бы только был способ выбрать лучшие резюме из этой партии быстрее, чем вручную просматривать все резюме одно за другим».

Последние 2 года я работал над несколькими проектами НЛП как по работе, так и в качестве хобби. Я решил попытаться решить проблему моего друга. Я сказал своему другу, что, возможно, мы сможем решить эту проблему или, по крайней мере, сократить время ручного сканирования с помощью некоторых техник НЛП.

Точное требование

Мой друг хотел, чтобы человек с глубоким обучением был его / ее основной компетенцией наряду с ноу-хау другими алгоритмами машинного обучения. Другой кандидат должен был иметь больше навыков в области больших данных или инженерии данных, например, опыт работы в Scala, AWS, Dockers, Kubernetes и т. Д.

Подход

Как только я понял, что мой друг в идеале ищет в кандидате, я разработал подход, как решить эту проблему. Вот то, что я перечислил как подход

· Имейте словарь или таблицу, в которой разбиты все различные наборы навыков, т.е. если есть такие слова, как keras, tensorflow, CNN, RNN, поместите их в один столбец под названием «Глубокое обучение».

· Иметь алгоритм НЛП, который анализирует все резюме и в основном ищет слова, упомянутые в словаре или таблице.

· Следующий шаг - подсчитать количество слов в различных категориях, например, как показано ниже, для каждого кандидата.

· Изобразите вышеуказанную информацию наглядно, чтобы нам было легко выбрать кандидата

Исследование

Теперь, когда я окончательно определился с тем, каким должен быть мой подход, следующим большим препятствием было то, как выполнить то, что я только что сказал.

Часть НЛП - Простор

Я искал библиотеку, которая выполняет сопоставление слов и словосочетаний. Мои поисковые запросы были удовлетворены Spacy. В Spacy есть функция под названием Сопоставление фраз. Вы можете прочитать больше об этом здесь".

Чтение резюме

Есть много готовых пакетов, которые помогают при чтении резюме. К счастью, все резюме, которое получил мой друг, было в формате PDF. Итак, я решил изучить пакеты PDF, такие как PDFminer или PyPDF2. Я выбрал PyPDF2.

Язык: Python

Визуализация данных: Matplotlib

Код и пояснения

Полный код

Вот ссылка Gist на полный код.

Теперь, когда у нас есть весь код, я хотел бы подчеркнуть две вещи.

Ключевые слова csv

Ключевые слова csv упоминаются в строке кода 44 как «template_new.csv».

Вы можете заменить его БД по вашему выбору (и внести необходимые изменения в код), но для простоты я выбрал старый добрый лист Excel (csv).

Слова в каждой категории могут быть написаны на заказ, вот список слов, которые я использовал для сопоставления фраз с резюме.

Кандидат - таблица ключевых слов

В строке 114 кода выполнение строки создает файл csv, этот файл csv показывает количество категорий ключевых слов кандидатов (настоящие имена кандидатов замаскированы) Вот как это выглядит.

Это может быть не интуитивно, поэтому я прибег к визуализации данных через matplotlib, как показано ниже.

Судя по диаграмме, Дом Кобб и Фишер больше похожи на специалистов, а другие - на универсалов !!

Было ли все упражнение полезным?

Мой друг был очень удивлен достигнутыми результатами, и это сэкономило ему много времени. Не говоря уже о том, что он составил около 15 резюме из почти 200, просто запустив код.

Вот как все это упражнение было полезно

Автоматическое чтение резюме

Вместо того, чтобы вручную открывать каждое резюме, код автоматически открывает резюме и анализирует содержимое. Если бы это нужно было делать вручную, это заняло бы много времени.

Фразовое соответствие и категоризация

Если бы мы вручную прочитали все резюме, было бы очень сложно сказать, есть ли у человека опыт в области машинного обучения или инженерии данных, потому что мы не ведем подсчет фраз во время чтения. С другой стороны, код просто ищет ключевые слова, отслеживает возникновение и классифицирует их.

Визуализация данных

Визуализация данных является здесь очень важным аспектом. Это ускоряет процесс принятия решений следующими способами

Мы узнаем, какой кандидат имеет больше ключевых слов в определенной категории, позволяя нам сделать вывод, что он / она может иметь большой опыт работы в этой категории или он / она может быть универсалом.

Мы можем провести относительное сравнение кандидатов друг с другом, помогая нам отфильтровать кандидатов, которые не соответствуют нашим требованиям.

Как можно использовать код

Специалист по данным, ищущий смены работы / Начинающий специалист по данным:

Скорее всего, многие компании уже используют коды, подобные приведенным выше, для первоначального отбора кандидатов. Поэтому желательно адаптировать свое резюме к конкретным требованиям работы с необходимыми ключевыми словами.

У типичного специалиста по анализу данных есть два варианта: либо позиционировать себя как универсал, либо выступать в роли эксперта в одной области, скажем «НЛП». В зависимости от требований к должности специалист по анализу данных может запустить этот код в своем резюме и узнать, какие ключевые слова появляются чаще и выглядит ли он / она как «универсал» или «эксперт». Основываясь на результатах, вы можете дополнительно настроить свое резюме, чтобы позиционировать себя соответствующим образом.

Рекрутеры

Если вы рекрутер, как мой друг, и у вас много резюме, вы можете запустить этот код для проверки кандидатов.

Надеюсь, вам понравилась эта статья.

Вы можете связаться со мной по

Linkedin

Твиттер