«Начало — самая важная часть работы». -Платон, Республика

Наука о данных — это не то, что вы можете легко зубрить. Вы не можете просто запомнить концепции здесь, вместо этого вам нужно понять их, практиковать и регулярно применять, чтобы добиться успеха. Всем новичкам, интересующимся наукой о данных и ищущим мотивации и вдохновения, вот идеальное руководство по созданию собственного проекта по науке о данных.

Цель проекта — создать модель, которая предсказывает, какие пассажиры выжили при кораблекрушении Титаника. Набор данных, над которым мы будем работать, называется Titanic Dataset from Kaggle.

Импортировать библиотеки

Импортируйте библиотеки, чтобы начать.

Понимание ваших данных

Прочитайте файл titanic_train.csv во фрейм данных Pandas.

Исследовательский анализ данных

На этом этапе мы будем анализировать наши данные, используя в основном визуальные методы, и попытаемся обобщить основные характеристики данных перед формальным процессом моделирования.

Точно так же вы можете сами экспериментировать и исследовать данные, чтобы изучить взаимосвязь между выживаемостью и такими факторами, как Pclass, SibSp и т. д.

Чтобы компенсировать недостающие данные, одним из способов является заполнить пустые записи о возрасте средним возрастом конкретного P-класса.

Обучение модели

Модель логистической регрессии

Тренировочный тестовый сплит

Обучение и прогнозирование

Оценка

Итак, вы готовы к своему первому проекту Data Science Project. Попробуйте изучить и проанализировать данные, чтобы получить еще лучшие результаты!