Моей любимой частью моего опыта работы с Генеральной Ассамблеей до сих пор был проект по очистке веб-страниц. Хотя среди более простых задач, которые мы бы рассмотрели в курсе Data Science Immersive, мне больше всего нравится веб-скрапинг. Я даже написал два предыдущих сообщения в блоге о написании простого парсера (вдохновением для этого сообщения послужил этот проект).

Целью проекта было выяснить, какие характеристики или переменные наиболее напрямую связаны с должностью высокооплачиваемого специалиста по данным. Для сбора данных мы запустили веб-парсер на сайте Indeed.com, откуда мы извлекали данные из объявлений о вакансиях в более чем 40 городах США. Затем данные были обработаны для создания логистических элементов, которые позволили бы нам лучше всего определить, когда предлагаемая работа оплачивается выше среднего по профессии в масштабах страны. Проект пришел к выводу, что помимо более прямого термина «специалист по данным», другими важными для принятия решения характеристиками являются термины «количественный», «инженер» и «машина». Ни один конкретный навык или язык программирования не попали в топ важных терминов, однако штат Аризона и Орегон зарегистрированы как отрицательные влиятельные характеристики.

Мой метод

Данные были получены с помощью веб-скребка, который повторял более 350 страниц для термина «Data Scientist» и повторял этот процесс для 42 городов США. Для каждой публикации вакансии найденный скребок записывал название должности, местонахождение должности, название компании и предложения по заработной плате. Подавляющее большинство сообщений не содержало данных о заработной плате, и, поскольку они являются целью этого проекта, я смог использовать только записи, содержащие указанные данные.

Столбец зарплаты затем преобразовывался в число с плавающей запятой и усреднялся, если был указан диапазон. Данные о заработной плате, которые поступали на ежемесячной / еженедельной / ежедневной основе, были преобразованы в соответствии с единицей измерения: доллары в год. Когда данные о зарплате с плавающей запятой были готовы, я взял медианное значение данных и преобразовал любую запись выше и ниже этого значения в двоичные 1 и 0 соответственно. Этот процесс повторялся, когда мы создавали переменные для использования в модели. Обоснование этого заключается в том, что мы пытаемся решить эту проблему, используя логистическую классификацию, которая работает с двоичным выбором.

После создания переменных для нескольких ключевых слов в названии должности и местонахождении (по состоянию) с помощью вышеупомянутого процесса я использовал процесс, который подсчитывает слова во всех записях для названия должности и ранжирует их в соответствии с тем, насколько они связаны с успешный исход (т.е. правильный прогноз). Для этого проекта выбрана модель Random Forest, агрегатор классификации, который будет использовать как двоичные данные для определения местоположения, так и «ранжирование слов».

Результаты

Модель дала оценку точности 89% при сравнении прогнозов с набором тестовых данных, который мы сгенерировали перед началом эксперимента. Среди примечательных особенностей, которые считались важными для прогноза, модель определила, что помимо очевидных слов, таких как «данные, ученый, исследование, аналитик» и их комбинаций в названии должности, есть еще несколько других, считающихся важными: количественный, машинный, старший и техник в указанном порядке. Единственный штат, вошедший в топ-15 характеристик, согласно модели, - это Аризона, занимающая 10-е место.

Когда я использовал те же переменные в модели логистической регрессии с помощью Scikit Learn, я получил аналогичный показатель точности в 84%, используя тот же критерий, что и выше. Хотя мера важности не эквивалентна ранжированию значений коэффициентов, я смог увидеть, что характеристики, определенные моей моделью случайного леса, также были среди более влиятельных переменных в модели логистической регрессии: количественные, инженер, старший, штат Аризона, были все среди характеристик, которые были очень положительно или отрицательно связаны с успешным прогнозом.

Ниже я включил небольшую таблицу, в которой перечислены слова-признаки с их соответствующей важностью из модели случайного леса и слова с их соответствующими коэффициентами из модели логистической регрессии:

  • Извините за размер ..

Последние мысли…

Чтобы обернуть все сообщения, полученные в результате этого исследования, при размещении вакансий или поиске работы помните о том, какое влияние ваше словесное использование окажет на ожидания в отношении заработной платы и потенциальные рычаги влияния на переговорах. Проведение исследования, подобного тому, что я сделал, не требует особых затрат времени в более широком масштабе поиска работы, поэтому не торопитесь и исследуйте рынок. В худшем случае, если вы зафиксируете ссылки, у вас будет хорошая база данных о вакансиях и способах подать заявку, что сделает вашу охоту за работой в геометрической прогрессии более продуктивной.