Прогнозирование дохода на основе вашего прошлого
Доход
Доход очень важен, потому что он влияет на наш выбор в жизни. Качество нашего здоровья и образа жизни будет другим, если у нас будет более высокий или более низкий доход. Я думаю, мы всегда должны стремиться к более высокому доходу, потому что, когда мы это сделаем, у нас будет больше времени для других дел, которые сделают нас счастливыми. Однако иногда бывает трудно точно определить переменные, которые влияют на получение более высокого дохода.
… Но - ЧТО, ЕСЛИ МЫ МОЖЕМ?
Набор данных
Этот набор данных взят из переписи населения в Соединенных Штатах о происхождении людей и о том, зарабатывают ли они больше или меньше 50 000 долларов.
Вот образец набора данных о доходах:
Поскольку на доход влияет множество факторов, я хочу выяснить 5 основных факторов, влияющих на то, будет ли доход выше или ниже 50 000 долларов. Для этого я буду использовать статистические модели и машинное обучение на основе набора данных, который я нашел.
Я разделю столбцы [1 (возраст) - 10 (часов в неделю)], которые будут набором данных функций, и столбец 11 (доход_ ›50K), который будет целевым набором данных.
Я также разделю набор данных функций на набор данных для обучения и набор данных для проверки.
После этого разделения набора данных я могу создавать модели, которые позволят мне предсказать, будет ли у кого-то доход выше или ниже 50 000 долларов.
Базовый уровень
Прежде чем приступить к построению моделей, мне нужно установить базовый уровень, чтобы я мог сравнить, сделают ли они прогноз более точным.
Исходя из набора данных обучения, базовый уровень составляет 76%.
Моделирование
Теперь, когда я установил базовый уровень, я могу приступить к моделированию. Я выбрал две модели, чтобы сравнить, какая из них даст более точный прогноз.
- Модель логистической регрессии
- Модель классификатора случайного леса
Точность
Модель логистической регрессии
Training Accuracy: 0.8435376084174605 Validation Accuracy: 0.8445177434030937
Модель классификации случайного леса:
Training Accuracy: 0.9528224086449595 Validation Accuracy: 0.8409918107370337
Кривая ROC
Поскольку показатели точности очень близки, мы проведем еще один визуальный тест, чтобы увидеть модель, у которой более высокая площадь находится под линией.
Даже по графику трудно сказать, какой из них точнее. С этим мы проведем еще один тест.
Оценка ROC-AUC
ROC-AUC Score - это площадь под кривой.
Logistic Regression ROC-AUC: 0.7501116955668395 Random Forest Classification ROC-AUC: 0.7582744751152407
Настроить модель
Поскольку случайный лес имеет более высокий показатель ROC-AUC, я настрою эту модель на гиперпараметры и попытаюсь повысить точность, а затем проверю, даст ли это более точное предсказание дохода.
Вот оценки точности после настройки:
Training Accuracy: 0.8718043509171051 Validation Accuracy: 0.8620336669699727
Это показывает, что настроенная модель более точна. С учетом сказанного, я буду использовать это, чтобы спрогнозировать доход.
Топ-5
Раньше я хотел проверить 5 основных характеристик, которые влияют на доход, и это порядок важности функций:
Важность функции
Он показывает, что возраст, образование, прирост капитала и отработанное время являются главными 5. Однако я не думаю, что могу сбрасывать со счетов тот факт, что есть больше характеристик, влияющих на доход, которые очень близки к проценту взносов для прогноз дохода. С учетом сказанного, я думаю, полезно взглянуть на картину в целом.
Вывод
Я думаю, это просто показывает, что образование действительно может помочь нам быть конкурентоспособными и быть способными выполнять задачи, необходимые на разных должностях. Со временем и опытом у нас будет больше доходов. Также разумно правильно управлять нашими активами, чтобы иметь прирост капитала. Конечно, также важно эффективно использовать свое время во время работы. Наши отношения и обязанности также являются отличной движущей силой для более высоких доходов. Я думаю, что со всей этой информацией время в наших интересах. Мы должны эффективно использовать наши ресурсы, чтобы улучшить себя, свои решения и свое благополучие.
"ноутбук"