Несколько дней назад, ища важный набор данных на Kaggle, мы наткнулись на соревнование Kaggle, где вы предсказываете шансы на выживание после кораблекрушения на основе предоставленной информации.

теперь мы приняли участие в этом конкурсе и приступили к работе. мы в основном используем IBM Watson Studio для ноутбуков python jupyter и обработки данных. поэтому мы загрузили файлы по отдельности и сначала полностью обработали данные, потому что большинство алгоритмов не могут работать со строковыми значениями, и чтобы сделать их, мы конвертируем их в числовые категориальные значения.

после этого мы сначала попробовали логистическую регрессию, чтобы классифицировать выживших или не выживших, используя «возраст», «пол» и «плату за проезд», где «пол» был преобразован в двоичные значения в соответствии с категорией. модель логистической регрессии вообще не давала точных результатов. точность была ниже 5 процентов. Затем мы попытались установить взаимосвязь между возрастом и выживанием (знаю, это несправедливо, но мы думали, что старые дедушки не умеют плавать), но это тоже провалилось.

нашей последней спасательной шлюпкой были деревья решений, и они идеально подошли! поэтому мы сначала использовали алгоритм только с 3 переменными, и точность составила 78%. поэтому мы решили добавить больше переменных, которые могут повлиять на выживаемость (очевидно, что имя не может увеличить ваши шансы не утонуть) и бум! уровень точности стал 82% на тестовом наборе.

Вывод таков: шансы выжить при кораблекрушении на самом деле зависят от стоимости билета, возраста и пола. потому что выше нет. женщин выжили. теперь мы все это знаем, не так ли? (Джек утонул, Роуз выжила, имеет смысл)

здесь вы найдете блокнот с прикрепленным кодом.



Спасибо за чтение!