Как только данные получены, как мы обсуждали в моей статье Источник данных. Теперь нам нужно очистить данные.

Почему мы должны очистить его?

Хороший вопрос! когда мы получаем данные с любого правительственного веб-сайта или репозитория. Он беспорядочный, неформатированный и имеет некоторые нарушения, такие как пропущенные значения и т. д. Если эти данные не будут очищены или использованы как таковые, это резко повлияет на наш дальнейший анализ и предположения. И, следовательно, будет препятствовать процессу построения нашей модели машинного обучения.

Давайте лучше разберемся с некоторыми примерами.

Вот у меня есть данные какой-то банковской маркетинговой кампании,

Это довольно грязно, проверьте первые две строки! Я имею в виду, кому какое дело до этих двух рядов, и поверьте мне, я не могу провести никакого анализа качества или, по крайней мере, усложнит мне жизнь, если они останутся там.

Итак, что я собираюсь сделать, так это пропустить их,

Я использую Pandas как pd и пропускаю первые две строки при импорте файла csv.

Давайте проверим наш набор данных сейчас.

И это то, что мне нужно. 👍

Вот еще один пример. На снимке выше столбец customerid мне бесполезен, поэтому я бы удалил этот столбец.

И давайте проверим новый набор данных.

Идеальный !! это пример избыточного столбца или столбца без значения. Поскольку они бесполезны для моего анализа.

Давайте посмотрим на пример, где мой столбец имеет неправильный тип данных.

Меня интересует средний возраст, это нормально. Но я не считаю, что возраст должен быть в виде числа с плавающей запятой или десятичного числа (сейчас для простоты давайте рассматривать числа с плавающей запятой и десятичные числа одинаково). Я хочу, чтобы мой возраст был целым числом.

Преобразуем это в целое число. Столбцы возраста имеют некоторые значения NaN, поэтому просто заменили их на 0. Возраст как 0 не повлияет на мой анализ.

Теперь колонка моего возраста находится в идеальном состоянии для моего дальнейшего анализа.

Это были некоторые примеры очистки данных на практике.

Надеюсь, что эта статья была полезной и помогла понять, почему очистка данных является важной частью науки о данных и машинного обучения.

Контрольный список для очистки данных

Вот контрольный список, которому я следую для очистки данных

Для исправления строки

  • Удалить итоговые строки: итоговые и промежуточные строки
  • Удалить неправильные строки: строку заголовка и строку нижнего колонтитула
  • Удалить лишние строки: номер столбца, индикаторы, пустые строки, номер страницы

Для исправления столбцов

  • Объедините два или более столбца, чтобы создать уникальный идентификатор строки.
  • Разделите столбец, чтобы получить больше данных
  • Добавьте имя столбца, если они отсутствуют
  • Удалить лишний столбец
  • И правильное выравнивание, особенно когда строка смещена вправо или столбцы смещены вправо (при работе с большим количеством данных их удаление было бы лучшим выбором, если строк с перекосом немного, например 10–20).

Важные моменты, о которых следует помнить

  • Не удаляйте столбец вслепую, если в нем много NaN, возможно, эти столбцы имеют решающее значение для нашего анализа. Итак, примите разумное решение, прежде чем удалять какой-либо столбец.
  • разделите столбцы, чтобы получить больше переменных, если это дает какую-либо уникальную и полезную информацию.
  • Разделение по возрастным группам может дать новое представление о перспективах разных возрастных групп.
  • Это хорошая привычка, чтобы получить обзор нулевых значений в вашем наборе данных.

Например

Это поможет вам лучше понять ваш набор данных.

Ознакомьтесь с другими моими статьями, посвященными EDA (исследовательскому анализу данных) и
источникам данных.

А пока Happy Data Science