ВВЕДЕНИЕ

Самая печально известная катастрофа, произошедшая более века назад, 15 апреля 1912 года, известна как крушение «Титаника». В ту роковую ночь присутствовало множество людей всех возрастов и полов, но, к несчастью, спасательных шлюпок было всего несколько.

Цель состоит в том, чтобы выполнить исследовательскую аналитику данных, чтобы получить различную информацию в доступном наборе данных и узнать влияние каждого поля на выживание пассажиров, применяя аналитику между каждым полем набора данных с полем «Выживание». Прогнозы делаются для новых наборов данных с применением алгоритма машинного обучения. Анализ данных будет проводиться по применяемым алгоритмам, и будет проверена точность.

ОПИСАНИЕ ДАННЫХ

Давайте получим краткий обзор набора данных. Данные содержат 12 столбцов и 891 строку. Давайте посмотрим описание каждого столбца.

  1. PassengerId → Это просто идентификация пассажира. Каждый пассажир имеет уникальный идентификатор. Вместо того, чтобы называть их полными именами
  2. Выжил →Это число делится на 0 и 1. 0 означает «не выжил», а 1 означает «выжил».
  3. Класс P→ Класс билета каждого пассажира: 1-й, 2-й или 3-й.
  4. Имя→ Имя каждого пассажира на борту.
  5. Пол→ Половая идентичность пассажиров
  6. Возраст→ Возраст каждого пассажира
  7. SibSp→ Количество братьев и сестер/супругов на борту Титаника
  8. Parch→ Количество родителей/детей на борту Титаника
  9. Заявка→ Номер заявки
  10. Тариф→ Пассажирский тариф
  11. Каюта→ Номер каюты
  12. Посадка→ Порт, из которого высадился пассажир. «C» — Шербур, «Q» — Квинстаун, «S» — Саутгемптон.

Выжить в этом инциденте было чудом, и здесь сыграло роль множество факторов. мы хотим знать, как эти факторы повлияли на шансы на выживание каждого пассажира.

→ Как повлияли на шансы на выживание людей с членами семьи?

Мы объединили столбец parch и sibsp, чтобы узнать размер семьи конкретного пассажира. Мы обнаружили, что выживаемость снижается, когда размер семьи увеличивается, и становится очень низкой, когда размер семьи становится больше 3, выживаемость снижается, как показано ниже.

→ Как их класс билета повлиял на их шансы на выживание?

Мы обнаружили, что у пассажиров, которые путешествовали первым классом, больше шансов выжить, чем у пассажиров второго и третьего класса. Коэффициент выживаемости снизился по мере того, как уровень класса также снизился, потому что людям, которые платили больше, отдавалось предпочтение перед другими.

→ какова выживаемость мужчин и женщин?

Идентификация пола также играла огромную роль в шансах на выживание пассажира, так как предпочтение отдавалось и женщинам.

Как видно ниже, выжило более 74% женщин и только 18,8% мужчин.

Заключение

Этот проект предполагает внедрение аналитики данных и машинного обучения. Из проекта мы пришли к выводу, что основными факторами, определяющими выживаемость каждого пассажира, являются пол, количество членов семьи и класс билета.

Однако в игру вступали и другие факторы, но они были не столь эффективны, как эти три, перечисленные выше. Я также создал модель машинного обучения с точностью 78%, чтобы прогнозировать больше результатов выживаемости на титаническом корабле на основе всех необходимых функций/полей. Это можно увидеть в моем github-репозитории.