Прогнозирование дохода на основе вашего прошлого

Доход

Доход очень важен, потому что он влияет на наш выбор в жизни. Качество нашего здоровья и образа жизни будет другим, если у нас будет более высокий или более низкий доход. Я думаю, мы всегда должны стремиться к более высокому доходу, потому что, когда мы это сделаем, у нас будет больше времени для других дел, которые сделают нас счастливыми. Однако иногда бывает трудно точно определить переменные, которые влияют на получение более высокого дохода.

… Но - ЧТО, ЕСЛИ МЫ МОЖЕМ?

Набор данных

Этот набор данных взят из переписи населения в Соединенных Штатах о происхождении людей и о том, зарабатывают ли они больше или меньше 50 000 долларов.

Вот образец набора данных о доходах:

Поскольку на доход влияет множество факторов, я хочу выяснить 5 основных факторов, влияющих на то, будет ли доход выше или ниже 50 000 долларов. Для этого я буду использовать статистические модели и машинное обучение на основе набора данных, который я нашел.

Я разделю столбцы [1 (возраст) - 10 (часов в неделю)], которые будут набором данных функций, и столбец 11 (доход_ ›50K), который будет целевым набором данных.

Я также разделю набор данных функций на набор данных для обучения и набор данных для проверки.

После этого разделения набора данных я могу создавать модели, которые позволят мне предсказать, будет ли у кого-то доход выше или ниже 50 000 долларов.

Базовый уровень

Прежде чем приступить к построению моделей, мне нужно установить базовый уровень, чтобы я мог сравнить, сделают ли они прогноз более точным.

Исходя из набора данных обучения, базовый уровень составляет 76%.

Моделирование

Теперь, когда я установил базовый уровень, я могу приступить к моделированию. Я выбрал две модели, чтобы сравнить, какая из них даст более точный прогноз.

  1. Модель логистической регрессии
  2. Модель классификатора случайного леса

Точность

Модель логистической регрессии

Training Accuracy:     0.8435376084174605
Validation Accuracy:   0.8445177434030937

Модель классификации случайного леса:

Training Accuracy:     0.9528224086449595
Validation Accuracy:   0.8409918107370337

Кривая ROC

Поскольку показатели точности очень близки, мы проведем еще один визуальный тест, чтобы увидеть модель, у которой более высокая площадь находится под линией.

Даже по графику трудно сказать, какой из них точнее. С этим мы проведем еще один тест.

Оценка ROC-AUC

ROC-AUC Score - это площадь под кривой.

Logistic Regression ROC-AUC:            0.7501116955668395
Random Forest Classification ROC-AUC:   0.7582744751152407

Настроить модель

Поскольку случайный лес имеет более высокий показатель ROC-AUC, я настрою эту модель на гиперпараметры и попытаюсь повысить точность, а затем проверю, даст ли это более точное предсказание дохода.

Вот оценки точности после настройки:

Training Accuracy:    0.8718043509171051
Validation Accuracy:  0.8620336669699727

Это показывает, что настроенная модель более точна. С учетом сказанного, я буду использовать это, чтобы спрогнозировать доход.

Топ-5

Раньше я хотел проверить 5 основных характеристик, которые влияют на доход, и это порядок важности функций:

Важность функции

Он показывает, что возраст, образование, прирост капитала и отработанное время являются главными 5. Однако я не думаю, что могу сбрасывать со счетов тот факт, что есть больше характеристик, влияющих на доход, которые очень близки к проценту взносов для прогноз дохода. С учетом сказанного, я думаю, полезно взглянуть на картину в целом.

Вывод

Я думаю, это просто показывает, что образование действительно может помочь нам быть конкурентоспособными и быть способными выполнять задачи, необходимые на разных должностях. Со временем и опытом у нас будет больше доходов. Также разумно правильно управлять нашими активами, чтобы иметь прирост капитала. Конечно, также важно эффективно использовать свое время во время работы. Наши отношения и обязанности также являются отличной движущей силой для более высоких доходов. Я думаю, что со всей этой информацией время в наших интересах. Мы должны эффективно использовать наши ресурсы, чтобы улучшить себя, свои решения и свое благополучие.

"ноутбук"