Анализ опроса Kaggle 2021 года

1. Определение проекта

Обзор проекта

Kaggle опубликовал свой ежегодный обзор машинного обучения и науки о данных. Около 26 000 пользователей по всему миру ответили на этот опрос, раскрыв много информации о своей демографии, поведении и мнениях.

Мы изучим данные, проанализировав подмножество различных вопросов, заданных респондентам.

Постановка задачи

Проблема, которую необходимо решить:

Визуализация данных и анализ результатов ежегодного опроса пользователей.
Простая модель для прогнозирования зарплаты Kagglers.

Показатели

Основная цель этого проекта — визуализировать набор данных, но была построена простая модель для прогнозирования заработной платы Kagglers на основе выбранных характеристик из опроса.
Точность модели будет оцениваться с использованием матриц путаницы в обучающих и тестовых наборах данных.

2. Анализ

Исследование данных

В опросе Kaggle DS & ML за 2021 г. было получено 25 973 полезных ответа от участников из 171 страны и территории.
Ответы на вопросы с несколькими вариантами ответов записывались в отдельные столбцы. Ответы на вопросы с множественным выбором были разбиты на несколько столбцов (по одному столбцу на каждый вариант ответа).
Вопросы с несколькими вариантами ответов не имеют пропущенных значений и касаются возраста, пола, национальности, уровня образования, роли и опыта Kagglers. Ответы на эти вопросы будут использоваться для визуализации и в качестве функций модели.
Нам придется иметь дело с пропущенными значениями для вопроса о годовом доходе Kagglers, который используется в качестве цели для модели.

Визуализация данных

Распределение по возрасту и полу

В 2021 году пользователи Kaggle в основном моложе 30 лет, и около 80% составляют мужчины.

Кагглеры со всего мира

Индия, очевидно, является страной номер один Kagglers (28,6%). На втором месте США (10,2%) с большим разрывом почти в 20%, затем еще один большой отрыв до 3-го места, заполненного пользователями из Японии, Китая, Бразилии, России и Нигерии с примерно таким же процентом около 3%.

Образование

Более 77,1% Kagglers имеют степень магистра и бакалавра, 12,2% имеют докторскую степень, 1,4% профессиональную докторскую степень, 8,3% не имеют формальной степени и 1,6% имеют среднее образование.

Роль

Пользователи Kaggle в основном студенты (26,2%). Половина из них на второй должности — Data Scientist (13,9%). В третьей примерно такой же процент составляют инженер-программист и аналитик данных, 9,4% и 9,2% соответственно.

Тип отрасли

Поскольку занятость Kagglers также является индикатором того, что промышленность требует большего от ML и AI, легко связать оба и сделать вывод, что больше всего выигрывают компьютеры и технологии, академические науки и образование, а также бухгалтерский учет и финансы! то любые другие отрасли там.

Опыт написания кода

Большинство Kagglers имеют менее 3 лет опыта программирования.

3. Методология

Предварительная обработка данных

Создается новый кадр данных с предварительно выбранными функциями: возраст, пол, страна, образование, профессия, отрасль и опыт; и цель: Заработная плата.

Целевой EDA

Нулевые значения в целевом столбце (Зарплата) были удалены, что привело к удалению «Студентов» и «В настоящее время не работает» из функции «Профессия».
Диапазоны окладов (категориальные значения) были изменены на числовые значения путем удаления «$» и других бесполезных знаков и установки значения оклада со средним значением диапазона окладов.

Возможности EDA

Цель здесь состоит в том, чтобы проверить, полезны ли выбранные функции для задачи прогнозирования.

В этом наборе данных я также рассмотрю проблему гендерного разрыва в оплате труда.

Возраст

Чем вы старше, тем больше вы зарабатываете. Пока не уволишься. Поэтому раздача понятна.

Пол

Распределение заработной платы мужчин и женщин пока довольно похоже. Остальные категории были удалены.

Страна

Заработная плата сильно различается в зависимости от страны, в которой вы работаете. Я группирую большинство стран по континентам/регионам, за исключением пяти наиболее представленных (США, Индия, Китай, Россия и Бразилия). Обратите внимание, что Азия означает Азию, кроме Индии, Китая и России; что Северная Америка — это только Кана и Мексика; и что Южная Америка не считается с Бразилией.

Как и ожидалось, североамериканские, океанские и ближневосточные Kagglers зарабатывают немного больше. В основном потому, что жизнь недешева, экономическая система допускает высокую заработную плату.

Здесь виден гендерный разрыв в оплате труда, который в Европе и Северной Америке выше, чем в Азии. В следующих визуализациях я сосредоточусь на гендерном разрыве в оплате труда в США.

Образование

Это показывает, что гендерный разрыв в оплате труда не (только) вызван разницей в образовании в США, так как существуют различия внутри каждого типа обучения.

Профессия

Внутри одной и той же работы разница в оплате труда кажется меньше. Труднее сразу сделать вывод. В целом, мужчины, кажется, получают больше.

Промышленность

Я ожидал более контрастных результатов, но модель определенно может чему-то научиться на этом.

Опыт

И снова логичный результат. Зарплата является строго возрастающей функцией вашего опыта работы.

Реализация модели

Цель

Осложнения, возникшие в процессе кодирования:

Допустим, мы хотим предсказать доход в тысячах долларов США. Я решу задачу как классификационную.
Я считаю, что более важно различать заработок в 40 000 и 70 000, чем между 200 000 и 250 000.
Поэтому я делаю 6 категорий: до 10к, от 10к до 50к, от 50к до 80к, от 80к до 125к, больше 125к.

Поезд / тестовый сплит

Разделите набор данных на 80% для обучения модели и 20% для тестирования.

Модель

Модель Gradient Boosing использовалась для прогнозирования заработной платы.

4. Результаты

Оценка модели и обоснование

Важность функций

Матрицы путаницы

Данные поезда:

Данные испытаний:

5. Вывод

Отражение

Пол - это, безусловно, наименее важная черта! Это не означает, что гендерного разрыва в оплате труда не существует, но показывает, что это не имеет значения при определении заработной платы кагглера.
Профессия является наиболее важным параметром, и мы показали ранее, что выше на работу приходилось больше мужчин.
Мы также замечаем, что образование мало влияет на заработок. То, что вы делаете больше, чем то, что вы сделали, будет определять ваш доход.
Как и ожидалось, легко обнаружить низкооплачиваемых и высокооплачиваемых ученых.

Улучшение

Мы попробуем другие модели, такие как линейная регрессия Лассо или случайный лес.
Мы реализуем некоторую настройку гиперпараметров, чтобы повысить производительность нашей модели.