предсказание, выживете ли вы после кораблекрушения Титаника (да, пусть это впитается)

Несколько дней назад, ища важный набор данных на Kaggle, мы наткнулись на соревнование Kaggle, где вы предсказываете шансы на выживание после кораблекрушения на основе предоставленной информации.

теперь мы приняли участие в этом конкурсе и приступили к работе. мы в основном используем IBM Watson Studio для ноутбуков python jupyter и обработки данных. поэтому мы загрузили файлы по отдельности и сначала полностью обработали данные, потому что большинство алгоритмов не могут работать со строковыми значениями, и чтобы сделать их, мы конвертируем их в числовые категориальные значения.

после этого мы сначала попробовали логистическую регрессию, чтобы классифицировать выживших или не выживших, используя «возраст», «пол» и «плату за проезд», где «пол» был преобразован в двоичные значения в соответствии с категорией. модель логистической регрессии вообще не давала точных результатов. точность была ниже 5 процентов. Затем мы попытались установить взаимосвязь между возрастом и выживанием (знаю, это несправедливо, но мы думали, что старые дедушки не умеют плавать), но это тоже провалилось.

нашей последней спасательной шлюпкой были деревья решений, и они идеально подошли! поэтому мы сначала использовали алгоритм только с 3 переменными, и точность составила 78%. поэтому мы решили добавить больше переменных, которые могут повлиять на выживаемость (очевидно, что имя не может увеличить ваши шансы не утонуть) и бум! уровень точности стал 82% на тестовом наборе.

Вывод таков: шансы выжить при кораблекрушении на самом деле зависят от стоимости билета, возраста и пола. потому что выше нет. женщин выжили. теперь мы все это знаем, не так ли? (Джек утонул, Роуз выжила, имеет смысл)

здесь вы найдете блокнот с прикрепленным кодом.

Titanic - IBM Watson Studio
eu-gb.dataplatform.cloud.ibm.com

Спасибо за чтение!

предсказание, выживете ли вы после кораблекрушения Титаника (да, пусть это впитается)

Вопросы по теме