Это часть 0 серии «Машинное обучение и анализ данных с помощью Python» на примере реального мира, набора данных о катастрофе «Титаник» от Kaggle. Это будет серия видеороликов, в которых я покажу вам, как использовать Python, Pandas и SciKit Learn для машинного обучения и анализа данных с реальной проблемой. В этой серии я буду пошагово рассказывать, как приступить к решению такой проблемы. Начиная с исследования и визуализации данных, разработки функций, а затем переходя к построению модели для прогнозирования.

Часть 0 расскажет вам, как начать работу, включая настройку среды и загрузку необходимых данных.

Если вы лучше учитесь с помощью видео, я также сделал видео, показывающее все шаги, чтобы вы могли вместо этого выполнить его:

Загрузите набор данных с Kaggle:



Перейдите к данным, нажмите «Загрузить все». Поместите его в легкое место для поиска и установки зависимостей. Мы собираемся использовать Jupyter Notebook, и я покажу вам, как настроить эту среду.

Самый простой способ — скачать Anaconda:



Обязательно загрузите версию Python 3.7 (предполагаю, что у вас есть Python и вы знакомы с некоторыми основами Python, если нет, загрузите ее здесь: https://www.python.org/downloads/).

Запустите Anaconda Navigator из папки приложений, и вы увидите кнопку установки рядом с Jupyter Notebook. Нажмите «Установить», а затем запустите.

В Jupyter Notebook вы увидите все файлы и папки из вашего корневого каталога. Перейдите туда, где вы сохранили загруженную папку. Сначала вы должны увидеть только 3 файла:

  • Пол_подчинения.csv
  • поезд.csv
  • test.csv

Это файлы, с которыми мы будем работать. Файл train.csv будет содержать то, что мы позже будем использовать в качестве обучающих данных. Файл test.csv будет почти идентичен файлу train.csv, за исключением того, что в нем будет отсутствовать один столбец, который является значением истинности, для которого мы пытаемся предсказать. Файл gender_submission.csv представляет собой образец файла отправки, в котором в столбце выживших жестко закодировано значение 0, если пол этого пассажира — мужской, и 1, если этот пассажир — женщина. Когда мы хотим отправить наши прогнозы, нам нужно будет преобразовать их в CSV-файл того же формата. Я расскажу о том, как это сделать позже (или, если вы посмотрите мой плейлист на YouTube, видео уже должно быть готово).

Теперь мы хотим создать новый файл, создайте новый файл Python3, щелкнув вкладку «Создать» в правом верхнем углу. Дайте ему имя.

Убедитесь, что у вас установлены библиотеки, которые мы будем использовать, выполнив:

  • импортировать панд как pd
  • импортировать sklearn

Если у вас нет ни одной из этих библиотек, вы можете загрузить их с помощью pip.

В первой части этой серии я покажу вам, как понять набор данных с некоторой визуализацией: