Предварительная обработка данных - важный шаг перед созданием модели машинного обучения. Без него модель не будет работать должным образом. Некоторым это может показаться немного скучным, но это необходимый шаг для работы над моделью машинного обучения.

Чтобы узнать о предварительной обработке данных и некоторых других этапах машинного обучения, прочтите эту содержательную книгу.

Вы можете получить набор данных на сайте www.superdatascience.com/machine-learning.

Набор данных, который у нас есть, состоит из 4 столбцов:

  • Страна
  • Возраст
  • Оплата труда
  • Куплено

Переменные здесь можно разделить на независимые и зависимые переменные. Независимые переменные используются для определения зависимой переменной. В нашем наборе данных первые три столбца - это независимые переменные, которые будут использоваться для определения зависимой переменной, то есть четвертого столбца.

Прежде чем начать, убедитесь, что у вас установлена ​​Anaconda. Если у вас его нет, следуйте инструкциям здесь.



Импорт библиотек

Библиотека Python - это набор функций и методов, который позволяет выполнять множество действий без написания собственного кода. Эти библиотеки можно импортировать, и это позволяет нам работать над нашим кодом намного быстрее.
Чтобы понять это, можно взять колесо в качестве примера. Он уже изобретен, поэтому изобретатель машины не стал тратить время на изобретение колеса. Здесь автомобиль - изобретение, в которое импортировано колесо. Итак, колесо - это модуль, который можно использовать в других изобретениях как таковой.
Здесь мы будем использовать библиотеки numpy, matplotlib.pyplot (будет использоваться в следующих главах) и pandas. Библиотека pandas используется для импорта наборов данных и управления ими.

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

Импорт набора данных

Во-первых, нам нужно установить соответствующий рабочий каталог с помощью файлового проводника. Вы найдете его в правом верхнем углу окна Spyder. Рабочий каталог - это каталог, в котором хранится ваш набор данных.

Здесь мы будем использовать библиотеку pandas для импорта набора данных.

dataset= pd.read_csv(‘Data.csv’)

Выполните код, выделив строку кода и одновременно нажав Ctrl и Enter.

В проводнике переменных будет виден набор данных. Доступ к нему можно получить, дважды щелкнув по нему.

Теперь нам нужно отличить матрицу характеристик, содержащую независимые переменные, от зависимой переменной «куплено».

Создание матрицы признаков

Матрица характеристик будет содержать переменные «Страна», «Возраст» и «Зарплата».
Код для объявления матрицы характеристик будет следующим:

X= dataset.iloc[:,:-1].values

В приведенном выше коде первый «:» обозначает строки, которые мы хотим включить, а следующий - столбцы, которые мы хотим включить. По умолчанию, если используется только «:» (двоеточие), это означает, что должны быть включены все строки / столбцы. В случае нашего набора данных нам нужно включить все строки (:) и все столбцы, кроме последнего (: -1). Мы закончили создание матрицы признаков X. Выполните строку. Теперь можно заметить, что в проводнике переменных отображается переменная X. К ней можно получить доступ, дважды щелкнув «X» в проводнике переменных.

Создание вектора зависимой переменной

Мы будем следовать той же самой процедуре, чтобы создать вектор зависимой переменной «y». Единственное изменение здесь - это столбцы, которые нам нужны в y. Как и в матрице признаков, мы включим все строки. Но из столбцов нам понадобится только 4-й (3-й, учитывая индексы в питоне). Следовательно, код же будет выглядеть следующим образом:

y= dataset.iloc[:,3].values

После выполнения переменная «y» будет показана в проводнике переменных, и к ней можно будет получить доступ, дважды щелкнув «y» там же.
На этом мы завершаем обучение по разделению набора данных на функции (или независимые переменные) и зависимую переменную.

Дайте мне знать, как вам понравился этот урок !!

В следующем руководстве будет рассказано, как обрабатывать отсутствующие данные. Ссылка будет добавлена ​​сюда после публикации.

Я лично нашел книгу Справочник по науке о данных Python: основные инструменты для работы с данными очень полезной в моем путешествии по науке о данных, и я надеюсь, что вам также понравится ее читать!

Подпишитесь на обновления этой серии, чтобы получать уведомления, когда выйдет следующая статья :)

Удачного обучения!