Я изучил вакансии, размещенные на Indeed.com, на основе поискового запроса «Наука о данных». Моя цель состояла в том, чтобы понять, какие факторы влияют на заработную плату для объявлений о вакансиях Data Science.

Я проанализировал объявления о вакансиях для 16 городов. Средняя зарплата на постах составляла 95 000 долларов. Затем я разделил должности на «выше» или «ниже» средней зарплаты. Я обнаружил, что категорию заработной платы (выше или ниже медианы) можно предсказать с точностью около 75% на основе использования определенных слов в заголовке и описании. Место работы также имело некоторое влияние на заработную плату, но его влияние было меньше, чем влияние ключевых слов. Я выполнил свой анализ, используя как случайные леса, так и логистическую регрессию с аналогичными результатами. Я провел свой окончательный анализ с помощью логистической регрессии, чтобы увидеть, какие функции (ключевые слова) оказали положительное или отрицательное влияние, а не только величину влияния.

Изучив список слов в приведенной ниже таблице, некоторые из них являются ожидаемыми (например, «старший» или «младший»), в то время как другие менее интуитивны (например, «продажи» или «исследования»).

Обратите внимание, что эта работа основана на относительно небольшой выборке (около 300) сообщений Indeed, содержащих информацию о заработной плате.