Часть первая: «Слова и несколько кодов»

Привет всем, меня зовут Абдул-Рашид Закария (Зак), и эта статья — первая из серии статей, посвященных моему первому проекту по машинному обучению.

Данные, зачем эти данные?

Первым шагом, который я предпринял при выборе данных, было просмотр некоторых наборов данных на Kaggle. Я нашел несколько интересных наборов данных. В шорт-лист для своего проекта я включил спорт, игры (геймер здесь :), здравоохранение, инженерное дело и онлайн-покупки. Наконец, я выбрал набор данных Amazon, который содержит информацию о самых продаваемых товарах с 2009 по 2019 год. Я выбрал этот набор данных, потому что это набор данных среднего размера с сочетанием числовых и категориальных типов данных. Во-вторых, этот набор данных позволит мне использовать все библиотеки, которые я уже изучил на курсе Zoomcamp по машинному обучению Алексея Григорева. Кроме того, набор данных затрагивает тему, которую я хотел продолжить. Это делает прогнозы на основе данных пользователей.

Подготовьте данные

«Данные есть данные» — Рэйчел, крайне важно иметь четкое представление о том, какие истории вы можете рассказать с помощью своих данных, прежде чем приступать к их обработке. Здесь важен контекст; выясните, будут ли ваши данные представлять важные факты ситуации или записи, которые он хранит. Например, в моих данных дублировались имена некоторых авторов. Это означает, что я бы использовал данные автора, чья работа претендует на опечатку. Это может показаться незначительным, но реальность такова, что для проектов, в которых решения могут существенно повлиять на человеческие жизни, опечатка может стать началом неправильных прогнозов.

Давайте приступим к делу. Я пройдусь по всем строкам кода и объясню, насколько мне известно.

Во-первых, я не прыгнул с головой в свои данные. Вместо этого я посмотрел на работу других, заметил, как они чистили свои данные, представляли свои цифры и цели, которые они выбрали для прогнозирования с помощью своих моделей.

Я активировал свою среду для этого проекта. Я придерживался той же среды, которую создал для курса машинного обучения, в данном случае — ml-zoomcamp. Знак $ не является частью кода. Вместо этого он представляет текущий каталог.

$ conda activate ml-zoomcamp 

Затем я изменил свой каталог файлов на файлы проекта для этого проекта. Еще один код, который мне показался полезным, — это ls. Это позволяет вам видеть все файлы в текущей папке.

$ cd 
$ ls  

Итак, чтобы запустить Jupyter Notebook в подсистеме Windows для Linux (WSL). Вы можете ввести код ниже. WSL предоставит вам список адресов, которые вы можете скопировать и вставить в свой браузер для доступа к папкам; вы можете создать блокнот Jupyter.

$ jupyter notebook

Как только вы запустите блокнот juypter, вы можете переименовать его, щелкнув имя открытого блокнота jupyter.

Первыми импортируемыми библиотеками являются Pandas и NumPy.

Использование хэштега перед любым кодом или словом превращает его в комментарий. Эта функция помогает сделать ваш код читабельным. Кроме того, вы можете использовать его для поиска ошибочных кодов, комментируя коды, которые вы не хотите тестировать.

#import libraries
$ import numpy as np
$ import pandas as pd

Я использую ключ as. Это позволяет нам называть библиотеку псевдонимом, коротким словом, распознаваемым как библиотека.

, мы используем библиотеку Pandas для обработки табличных данных. NumPy — это стандартный пакет, используемый для математических вычислений, и он также содержит другие функции, а также N-мерные массивы в значительной степени матрицы.

Чтобы прочитать наш набор данных Amazon, который представляет собой файл со значениями, разделенными запятыми (CSV), мы используем pd.read_csv.

#Use pandas to read 'csv' file of the data and store it to a variable called 'df'
$ df = pd.read_csv('data_kaggle.csv')

Я уже скачал данные и сохранил их в том же каталоге моей рабочей среды, что и data_kaggle.csv

Далее:

Часть вторая: нужны чистые данные