Очистка ваших данных с помощью Pandas

Как босс устранять несоответствия из полученных данных.

Не все блестящие вещи - золото. То же самое и с данными, которые вы найдете. Данные, собранные для обработки, могут быть довольно противоречивыми, особенно данные, собранные вручную. Если не очистить, это может привести к ошибкам в ваших расчетах и полному беспорядку для вашего личного проекта или организации, в которой вы работаете. Вы же не хотите, чтобы это случилось. Вот почему самым важным шагом после сбора данных является их очистка, чтобы предотвратить смущение и сердечные приступы.

Pandas - это библиотека Python с открытым исходным кодом, используемая для управления данными. Он имеет мощную структуру данных и оптимизацию алгоритмов и предоставляет простой в использовании интерфейс для управления данными в соответствии с вашими целями.

В этой статье я продемонстрирую основы использования панд для очистки ваших данных.

Предпосылки

Базовые знания в Python
Среда программирования - Jupyter Notebook лучше всех. Это делает ваш проект данных организованным. Вы можете использовать живую версию здесь.
Этот ужасный несогласованный набор данных

Включенные шаги

Панды - действительно мощный инструмент. Мы используем именно это.

Итак, запустите свой блокнот jupyter и создайте новый сеанс, щелкнув new, затем python3 в правом верхнем углу.

import pandas as pd   # import the pandas library
dataset = pd.read_csv("location/to/dataset.csv")
dataset

Добавьте приведенный выше код в первую ячейку и нажмите shift + enter. Это запустит приведенный выше код в текущей ячейке. Вы это увидите.

Здесь мы добавили инструмент pandas в нашу среду в первой строке, импортировав его. Затем во второй строке мы загрузили набор данных в память с помощью функции read_csv, а в последней строке мы отобразили данные в виде таблицы, чтобы мы могли быстро взглянуть на то, как данные отображаются, чтобы мы могли легко перемещаться, также мы обнаруживаем, что там есть некоторые несоответствия с данными, такими как нулевые значения. Это действие дает нам лишь верхушку айсберга, но не всю историю. На следующем шаге я покажу, как найти эти несоответствия с помощью панд.

Как найти недостающие

Вы можете проверить, чтобы найти места, где были пустые входы, а также увидеть количество пустых входов. С отсутствующими данными следует обращаться в зависимости от требований проекта. Например, мы можем считать строки или столбцы с отсутствующими данными плохими и удалить их или заменить отсутствующие данные другими значениями для создания баланса.

Пойдем !

dataset["STREET ADDRESS"].isnull()

Это показывает, отсутствуют ли данные в логическом стиле. True означает, что данные отсутствуют, False - иначе.

dataset["NO. OVERWEIGHT"].isnull().value_counts()

Этот вывод более интуитивно понятен и показывает количество отсутствующих и не отсутствующих данных. Это поможет вам узнать общий эффект несогласованности ваших данных и принять меры.

Принятие мер

Если мы не найдем лучшей замены для отсутствующих данных, лучший вариант - удалить их. Мы делаем это

dataset = dataset["STREET ADDRESS"].dropna()

Эта функция удаляет все строки с отсутствующими данными, как будто это горячо (каламбур), и создает новый набор данных, чтобы мы могли эффективно работать с данными.

Упражнение

Давайте углубимся в набор данных.

Ориентация на количество учащихся с избыточным весом в каждой школе.

Воспользуйтесь уроком, извлеченным из предыдущего раздела, чтобы найти количество пропущенных значений в NO. Столбец ПЕРЕВЕС в наборе данных.

Заполнение пробела

Вы обнаружите, что и здесь отсутствуют значения. Но мы можем заполнить недостающие значения средним значением всего числа учащихся с избыточным весом в каждой школе.

no_overweight = dataset["NO. OVERWEIGHT"]
new_data = no_overweight.fillna(no_overweight.mean())

Здесь вы понимаете, что мы использовали среднее значение непропущенных значений, чтобы заполнить пропущенные значения, чтобы придать им единообразие.

Вы можете использовать уроки, извлеченные из предыдущего раздела, чтобы проверить, есть ли еще недостающие данные в этом столбце. Попытайся.

Ссылка на исходный код здесь

Куда идти дальше - Полезные ресурсы:

Существуют различные другие методы очистки данных, вы можете выполнять манипуляции со строками, объединять разные наборы данных, объединять значения и т. Д.

Официальный документ Panda по манипулированию данными - и ознакомьтесь со всеми другими действиями, которые вы можете предпринять в отношении данных, чтобы их можно было использовать в ваших целях.

Набор данных Kaggle - лучшее место для поиска открытых данных и начала изучения и публикации результатов.

Покажите нам ❤ и 👏 и следите за нашей публикацией, чтобы увидеть больше интересных статей по науке о данных от авторов 👫 со всего мира и за его пределами