1. Определение проекта
Обзор проекта
Kaggle опубликовал свой ежегодный обзор машинного обучения и науки о данных. Около 26 000 пользователей по всему миру ответили на этот опрос, раскрыв много информации о своей демографии, поведении и мнениях.
Мы изучим данные, проанализировав подмножество различных вопросов, заданных респондентам.
Постановка задачи
Проблема, которую необходимо решить:
- Визуализация данных и анализ результатов ежегодного опроса пользователей.
- Простая модель для прогнозирования зарплаты Kagglers.
Показатели
- Основная цель этого проекта — визуализировать набор данных, но была построена простая модель для прогнозирования заработной платы Kagglers на основе выбранных характеристик из опроса.
- Точность модели будет оцениваться с использованием матриц путаницы в обучающих и тестовых наборах данных.
2. Анализ
Исследование данных
- В опросе Kaggle DS & ML за 2021 г. было получено 25 973 полезных ответа от участников из 171 страны и территории.
- Ответы на вопросы с несколькими вариантами ответов записывались в отдельные столбцы. Ответы на вопросы с множественным выбором были разбиты на несколько столбцов (по одному столбцу на каждый вариант ответа).
- Вопросы с несколькими вариантами ответов не имеют пропущенных значений и касаются возраста, пола, национальности, уровня образования, роли и опыта Kagglers. Ответы на эти вопросы будут использоваться для визуализации и в качестве функций модели.
- Нам придется иметь дело с пропущенными значениями для вопроса о годовом доходе Kagglers, который используется в качестве цели для модели.
Визуализация данных
Распределение по возрасту и полу
В 2021 году пользователи Kaggle в основном моложе 30 лет, и около 80% составляют мужчины.
Кагглеры со всего мира
Индия, очевидно, является страной номер один Kagglers (28,6%). На втором месте США (10,2%) с большим разрывом почти в 20%, затем еще один большой отрыв до 3-го места, заполненного пользователями из Японии, Китая, Бразилии, России и Нигерии с примерно таким же процентом около 3%.
Образование
Более 77,1% Kagglers имеют степень магистра и бакалавра, 12,2% имеют докторскую степень, 1,4% профессиональную докторскую степень, 8,3% не имеют формальной степени и 1,6% имеют среднее образование.
Роль
Пользователи Kaggle в основном студенты (26,2%). Половина из них на второй должности — Data Scientist (13,9%). В третьей примерно такой же процент составляют инженер-программист и аналитик данных, 9,4% и 9,2% соответственно.
Тип отрасли
Поскольку занятость Kagglers также является индикатором того, что промышленность требует большего от ML и AI, легко связать оба и сделать вывод, что больше всего выигрывают компьютеры и технологии, академические науки и образование, а также бухгалтерский учет и финансы! то любые другие отрасли там.
Опыт написания кода
Большинство Kagglers имеют менее 3 лет опыта программирования.
3. Методология
Предварительная обработка данных
- Создается новый кадр данных с предварительно выбранными функциями: возраст, пол, страна, образование, профессия, отрасль и опыт; и цель: Заработная плата.
Целевой EDA
- Нулевые значения в целевом столбце (Зарплата) были удалены, что привело к удалению «Студентов» и «В настоящее время не работает» из функции «Профессия».
- Диапазоны окладов (категориальные значения) были изменены на числовые значения путем удаления «$» и других бесполезных знаков и установки значения оклада со средним значением диапазона окладов.
Возможности EDA
Цель здесь состоит в том, чтобы проверить, полезны ли выбранные функции для задачи прогнозирования.
В этом наборе данных я также рассмотрю проблему гендерного разрыва в оплате труда.
- Возраст
Чем вы старше, тем больше вы зарабатываете. Пока не уволишься. Поэтому раздача понятна.
- Пол
Распределение заработной платы мужчин и женщин пока довольно похоже. Остальные категории были удалены.
- Страна
Заработная плата сильно различается в зависимости от страны, в которой вы работаете. Я группирую большинство стран по континентам/регионам, за исключением пяти наиболее представленных (США, Индия, Китай, Россия и Бразилия). Обратите внимание, что Азия означает Азию, кроме Индии, Китая и России; что Северная Америка — это только Кана и Мексика; и что Южная Америка не считается с Бразилией.
Как и ожидалось, североамериканские, океанские и ближневосточные Kagglers зарабатывают немного больше. В основном потому, что жизнь недешева, экономическая система допускает высокую заработную плату.
Здесь виден гендерный разрыв в оплате труда, который в Европе и Северной Америке выше, чем в Азии. В следующих визуализациях я сосредоточусь на гендерном разрыве в оплате труда в США.
- Образование
Это показывает, что гендерный разрыв в оплате труда не (только) вызван разницей в образовании в США, так как существуют различия внутри каждого типа обучения.
- Профессия
Внутри одной и той же работы разница в оплате труда кажется меньше. Труднее сразу сделать вывод. В целом, мужчины, кажется, получают больше.
- Промышленность
Я ожидал более контрастных результатов, но модель определенно может чему-то научиться на этом.
- Опыт
И снова логичный результат. Зарплата является строго возрастающей функцией вашего опыта работы.
Реализация модели
Цель
Осложнения, возникшие в процессе кодирования:
- Допустим, мы хотим предсказать доход в тысячах долларов США. Я решу задачу как классификационную.
- Я считаю, что более важно различать заработок в 40 000 и 70 000, чем между 200 000 и 250 000.
- Поэтому я делаю 6 категорий: до 10к, от 10к до 50к, от 50к до 80к, от 80к до 125к, больше 125к.
Поезд / тестовый сплит
- Разделите набор данных на 80% для обучения модели и 20% для тестирования.
Модель
- Модель Gradient Boosing использовалась для прогнозирования заработной платы.
4. Результаты
Оценка модели и обоснование
- Важность функций
- Матрицы путаницы
Данные поезда:
Данные испытаний:
5. Вывод
Отражение
- Пол - это, безусловно, наименее важная черта! Это не означает, что гендерного разрыва в оплате труда не существует, но показывает, что это не имеет значения при определении заработной платы кагглера.
Профессия является наиболее важным параметром, и мы показали ранее, что выше на работу приходилось больше мужчин. - Мы также замечаем, что образование мало влияет на заработок. То, что вы делаете больше, чем то, что вы сделали, будет определять ваш доход.
- Как и ожидалось, легко обнаружить низкооплачиваемых и высокооплачиваемых ученых.
Улучшение
- Мы попробуем другие модели, такие как линейная регрессия Лассо или случайный лес.
- Мы реализуем некоторую настройку гиперпараметров, чтобы повысить производительность нашей модели.