1. Определение проекта

Обзор проекта

Kaggle опубликовал свой ежегодный обзор машинного обучения и науки о данных. Около 26 000 пользователей по всему миру ответили на этот опрос, раскрыв много информации о своей демографии, поведении и мнениях.

Мы изучим данные, проанализировав подмножество различных вопросов, заданных респондентам.

Постановка задачи

Проблема, которую необходимо решить:

  • Визуализация данных и анализ результатов ежегодного опроса пользователей.
  • Простая модель для прогнозирования зарплаты Kagglers.

Показатели

  • Основная цель этого проекта — визуализировать набор данных, но была построена простая модель для прогнозирования заработной платы Kagglers на основе выбранных характеристик из опроса.
  • Точность модели будет оцениваться с использованием матриц путаницы в обучающих и тестовых наборах данных.

2. Анализ

Исследование данных

  • В опросе Kaggle DS & ML за 2021 г. было получено 25 973 полезных ответа от участников из 171 страны и территории.
  • Ответы на вопросы с несколькими вариантами ответов записывались в отдельные столбцы. Ответы на вопросы с множественным выбором были разбиты на несколько столбцов (по одному столбцу на каждый вариант ответа).
  • Вопросы с несколькими вариантами ответов не имеют пропущенных значений и касаются возраста, пола, национальности, уровня образования, роли и опыта Kagglers. Ответы на эти вопросы будут использоваться для визуализации и в качестве функций модели.
  • Нам придется иметь дело с пропущенными значениями для вопроса о годовом доходе Kagglers, который используется в качестве цели для модели.

Визуализация данных

Распределение по возрасту и полу

В 2021 году пользователи Kaggle в основном моложе 30 лет, и около 80% составляют мужчины.

Кагглеры со всего мира

Индия, очевидно, является страной номер один Kagglers (28,6%). На втором месте США (10,2%) с большим разрывом почти в 20%, затем еще один большой отрыв до 3-го места, заполненного пользователями из Японии, Китая, Бразилии, России и Нигерии с примерно таким же процентом около 3%.

Образование

Более 77,1% Kagglers имеют степень магистра и бакалавра, 12,2% имеют докторскую степень, 1,4% профессиональную докторскую степень, 8,3% не имеют формальной степени и 1,6% имеют среднее образование.

Роль

Пользователи Kaggle в основном студенты (26,2%). Половина из них на второй должности — Data Scientist (13,9%). В третьей примерно такой же процент составляют инженер-программист и аналитик данных, 9,4% и 9,2% соответственно.

Тип отрасли

Поскольку занятость Kagglers также является индикатором того, что промышленность требует большего от ML и AI, легко связать оба и сделать вывод, что больше всего выигрывают компьютеры и технологии, академические науки и образование, а также бухгалтерский учет и финансы! то любые другие отрасли там.

Опыт написания кода

Большинство Kagglers имеют менее 3 лет опыта программирования.

3. Методология

Предварительная обработка данных

  • Создается новый кадр данных с предварительно выбранными функциями: возраст, пол, страна, образование, профессия, отрасль и опыт; и цель: Заработная плата.

Целевой EDA

  • Нулевые значения в целевом столбце (Зарплата) были удалены, что привело к удалению «Студентов» и «В настоящее время не работает» из функции «Профессия».
  • Диапазоны окладов (категориальные значения) были изменены на числовые значения путем удаления «$» и других бесполезных знаков и установки значения оклада со средним значением диапазона окладов.

Возможности EDA

Цель здесь состоит в том, чтобы проверить, полезны ли выбранные функции для задачи прогнозирования.

В этом наборе данных я также рассмотрю проблему гендерного разрыва в оплате труда.

  • Возраст

Чем вы старше, тем больше вы зарабатываете. Пока не уволишься. Поэтому раздача понятна.

  • Пол

Распределение заработной платы мужчин и женщин пока довольно похоже. Остальные категории были удалены.

  • Страна

Заработная плата сильно различается в зависимости от страны, в которой вы работаете. Я группирую большинство стран по континентам/регионам, за исключением пяти наиболее представленных (США, Индия, Китай, Россия и Бразилия). Обратите внимание, что Азия означает Азию, кроме Индии, Китая и России; что Северная Америка — это только Кана и Мексика; и что Южная Америка не считается с Бразилией.

Как и ожидалось, североамериканские, океанские и ближневосточные Kagglers зарабатывают немного больше. В основном потому, что жизнь недешева, экономическая система допускает высокую заработную плату.

Здесь виден гендерный разрыв в оплате труда, который в Европе и Северной Америке выше, чем в Азии. В следующих визуализациях я сосредоточусь на гендерном разрыве в оплате труда в США.

  • Образование

Это показывает, что гендерный разрыв в оплате труда не (только) вызван разницей в образовании в США, так как существуют различия внутри каждого типа обучения.

  • Профессия

Внутри одной и той же работы разница в оплате труда кажется меньше. Труднее сразу сделать вывод. В целом, мужчины, кажется, получают больше.

  • Промышленность

Я ожидал более контрастных результатов, но модель определенно может чему-то научиться на этом.

  • Опыт

И снова логичный результат. Зарплата является строго возрастающей функцией вашего опыта работы.

Реализация модели

Цель

Осложнения, возникшие в процессе кодирования:

  • Допустим, мы хотим предсказать доход в тысячах долларов США. Я решу задачу как классификационную.
  • Я считаю, что более важно различать заработок в 40 000 и 70 000, чем между 200 000 и 250 000.
  • Поэтому я делаю 6 категорий: до 10к, от 10к до 50к, от 50к до 80к, от 80к до 125к, больше 125к.

Поезд / тестовый сплит

  • Разделите набор данных на 80% для обучения модели и 20% для тестирования.

Модель

  • Модель Gradient Boosing использовалась для прогнозирования заработной платы.

4. Результаты

Оценка модели и обоснование

  • Важность функций

  • Матрицы путаницы

Данные поезда:

Данные испытаний:

5. Вывод

Отражение

  • Пол - это, безусловно, наименее важная черта! Это не означает, что гендерного разрыва в оплате труда не существует, но показывает, что это не имеет значения при определении заработной платы кагглера.
    Профессия является наиболее важным параметром, и мы показали ранее, что выше на работу приходилось больше мужчин.
  • Мы также замечаем, что образование мало влияет на заработок. То, что вы делаете больше, чем то, что вы сделали, будет определять ваш доход.
  • Как и ожидалось, легко обнаружить низкооплачиваемых и высокооплачиваемых ученых.

Улучшение

  • Мы попробуем другие модели, такие как линейная регрессия Лассо или случайный лес.
  • Мы реализуем некоторую настройку гиперпараметров, чтобы повысить производительность нашей модели.