ВВЕДЕНИЕ
Самая печально известная катастрофа, произошедшая более века назад, 15 апреля 1912 года, известна как крушение «Титаника». В ту роковую ночь присутствовало множество людей всех возрастов и полов, но, к несчастью, спасательных шлюпок было всего несколько.
Цель состоит в том, чтобы выполнить исследовательскую аналитику данных, чтобы получить различную информацию в доступном наборе данных и узнать влияние каждого поля на выживание пассажиров, применяя аналитику между каждым полем набора данных с полем «Выживание». Прогнозы делаются для новых наборов данных с применением алгоритма машинного обучения. Анализ данных будет проводиться по применяемым алгоритмам, и будет проверена точность.
ОПИСАНИЕ ДАННЫХ
Давайте получим краткий обзор набора данных. Данные содержат 12 столбцов и 891 строку. Давайте посмотрим описание каждого столбца.
- PassengerId → Это просто идентификация пассажира. Каждый пассажир имеет уникальный идентификатор. Вместо того, чтобы называть их полными именами
- Выжил →Это число делится на 0 и 1. 0 означает «не выжил», а 1 означает «выжил».
- Класс P→ Класс билета каждого пассажира: 1-й, 2-й или 3-й.
- Имя→ Имя каждого пассажира на борту.
- Пол→ Половая идентичность пассажиров
- Возраст→ Возраст каждого пассажира
- SibSp→ Количество братьев и сестер/супругов на борту Титаника
- Parch→ Количество родителей/детей на борту Титаника
- Заявка→ Номер заявки
- Тариф→ Пассажирский тариф
- Каюта→ Номер каюты
- Посадка→ Порт, из которого высадился пассажир. «C» — Шербур, «Q» — Квинстаун, «S» — Саутгемптон.
Выжить в этом инциденте было чудом, и здесь сыграло роль множество факторов. мы хотим знать, как эти факторы повлияли на шансы на выживание каждого пассажира.
→ Как повлияли на шансы на выживание людей с членами семьи?
Мы объединили столбец parch и sibsp, чтобы узнать размер семьи конкретного пассажира. Мы обнаружили, что выживаемость снижается, когда размер семьи увеличивается, и становится очень низкой, когда размер семьи становится больше 3, выживаемость снижается, как показано ниже.
→ Как их класс билета повлиял на их шансы на выживание?
Мы обнаружили, что у пассажиров, которые путешествовали первым классом, больше шансов выжить, чем у пассажиров второго и третьего класса. Коэффициент выживаемости снизился по мере того, как уровень класса также снизился, потому что людям, которые платили больше, отдавалось предпочтение перед другими.
→ какова выживаемость мужчин и женщин?
Идентификация пола также играла огромную роль в шансах на выживание пассажира, так как предпочтение отдавалось и женщинам.
Как видно ниже, выжило более 74% женщин и только 18,8% мужчин.
Заключение
Этот проект предполагает внедрение аналитики данных и машинного обучения. Из проекта мы пришли к выводу, что основными факторами, определяющими выживаемость каждого пассажира, являются пол, количество членов семьи и класс билета.
Однако в игру вступали и другие факторы, но они были не столь эффективны, как эти три, перечисленные выше. Я также создал модель машинного обучения с точностью 78%, чтобы прогнозировать больше результатов выживаемости на титаническом корабле на основе всех необходимых функций/полей. Это можно увидеть в моем github-репозитории.