Подготовка данных — один из самых важных шагов в процессе решения любой задачи, связанной с наукой о данных или машинным обучением.
В этом блоге мы расскажем обо всех этапах как можно подробнее.

Ниже приведены основные этапы подготовки данных:

  1. Идентификация переменных:
    ›Сначала определите переменные-предикторы (входные) и целевые (выходные).
    ›Далее определите тип данных и категорию переменных.
    ›Предположим, мы хотим предсказать, будут ли студенты играть в крикет или нет (см. ниже набор данных).
    ›Здесь вам нужно определить переменные-предикторы, целевые переменные, тип данных переменных и категорию переменных.

2) Одномерный анализ:

На этом этапе мы исследуем переменные одну за другой. Методы выполнения одномерного анализа будут зависеть от того, является ли тип переменной категориальным или непрерывным.

Давайте рассмотрим эти методы и статистические показатели для категориальных и непрерывных переменных по отдельности:

Непрерывные переменные: – В случае непрерывных переменных нам необходимо понять центральную тенденцию и распространение переменной.

Категорические переменные: – Для категориальные переменные, мы будем использовать таблицы частот, чтобы понять распределение каждой категории. Мы также можем прочитать процент значений в каждой категории. Одномерный анализ также используется для выделения отсутствующих и выпадающих значений.

3) Двумерный анализ:
›Двумерный анализ выявляет взаимосвязь между двумя переменными.
›Здесь мы ищем ассоциацию и диссоциацию между переменными с заранее определенной значимостью. уровне.
›Мы можем выполнить двумерный анализ для любой комбинации категориальных и непрерывных переменных.
›Комбинация может быть: категориальной и категориальной, категориальной и непрерывной и непрерывной и непрерывной.
›Различные методы используются для решения этих комбинаций в процессе анализа.

Непрерывный и непрерывный:
›Диаграмма рассеяния показывает взаимосвязь между двумя переменными, но не указывает силу взаимосвязи между ними.
›Чтобы найти сила связи, мы используем Correlation (corrcoef). ›Корреляция варьируется от -1 (полная отрицательная корреляция) до +1 (полная положительная корреляция)
Корреляция = ковариация (X, Y)/Var(X)*Var(Y)

Категорический и категориальный:
›Двусторонняя таблица: мы можем начать анализ отношений, создав двустороннюю таблицу подсчета и подсчета%. Строки представляют категорию одной переменной, а столбцы представляют категории другой переменной.
›Столбчатая диаграмма с накоплением: этот метод больше похож на визуальную форму двусторонней таблицы.
›Хи-квадрат. основан на разнице между ожидаемой и наблюдаемой частотами в одной или нескольких категориях в двусторонней таблице. Он возвращает вероятность для вычисленного распределения хи-квадрат со степенью свободы.
**Вероятность 0 указывает на то, что оба являются зависимыми.
**Вероятность 1 указывает на то, что оба являются независимыми.
**Вероятность менее 0,05 указывает на то, что взаимосвязь между переменными значима при достоверности 95%.

Категорические и непрерывные:
›Исследуя взаимосвязь между категориальными и непрерывными переменными, мы можем рисовать диаграммы для каждого уровня категориальных переменных.
›Если количество уровней невелико, это не покажет статистическую значимость.
›Чтобы посмотреть на статистическую значимость, мы можем выполнить Z-тест, Т-тест или ANOVA.
›Z-тест/Т-тест : - Любой тест оценивает, статистически отличаются ли средние значения двух групп друг от друга или нет.
›Если вероятность Z мала, то разница двух средних значений более значительна. T-критерий очень похож на Z-критерий, но он используется, когда количество наблюдений для обеих категорий меньше 30.
›ANOVA — оценивает, статистически отличаются ли средние значения более чем двух групп.

4) Обработка пропущенных значений:
›Отсутствующие данные в наборе обучающих данных могут снизить мощность/подгонку модели или могут привести к необъективной модели, поскольку мы не проанализировали поведение и взаимосвязь. с другими переменными правильно.
›Это может привести к неправильным прогнозам или классификации.

Почему данные содержат пропущенные значения?
›Отсутствующие данные или пропущенные значения возникают, когда у вас нет сохраненных данных для определенных переменных или участников.
›Данные могут пропадать из-за неполного ввода данных, сбоев в работе оборудования, потери файлов и многих других причин.

Методы обработки отсутствующих значений в наборе данных:

Дело Удаление:

Мы можем просто удалить экземпляр или строку из данных, где мы получаем нулевые значения, используя следующие два метода.

  • Удаление по списку
  • Попарное удаление

Мудрое удаление списка работает, когда

  • Данные отсутствуют полностью случайным образом (MCAR)
  • У вас в любом случае достаточно мощности, даже если вы потеряли часть своего набора данных

Приведенный ниже код используется для удаления всех строк, которые имеют нулевые значения в python.

data.dropna()

Импутация данных.Импутация — это процесс замены отсутствующих данных замененными значениями. При замене точки данных.

Подстановка среднего/медианы/моды:

  • Выбор для пропущенных значений, которые, как известно, не равны нулю, заключается в использовании некоторых центральных значений, таких как среднее значение, медиана или мода.
  • Это грубый подход к вменению, который может привести к плохой работе.
  • В python мы можем сделать это, используя:

›Для среднего:

data.fillna(data.mean())

›Для медианы:

data.fillna(data.median())

›Для режима:

data.fillna(data.mode())

Вменение горячей колоды:

  • Заполняется случайно выбранное значение от человека в выборке, который имеет аналогичные значения по другим переменным.

Вменение регрессии:

  • Прогнозируемое значение, полученное путем регрессии отсутствующей переменной на другие переменные, заполняется.

Метод заполнения назад и вперед

  • «Заполнение вперед» будет распространять последнее действительное наблюдение вперед.
  • «Обратная заливка» используется для обратной заливки пропущенных значений в наборе данных.
  • Синтаксис в Python:
  • Заполнение вперед

df[‘имя_столбца’].ffill(ось = 1)

  • Обратная заливка

df[‘имя_столбца’].bfill(ось = 1)

5) Обработка выбросов:

›Выброс — это наблюдение, которое появляется далеко и отличается от общей закономерности выборки.
›Выбросом в статистике является точка наблюдения, удаленная от других наблюдений.

Удаление наблюдений: мы удаляем значения выбросов, если они вызваны ошибкой ввода данных, ошибкой обработки данных или числом наблюдений выбросов очень мало.
Преобразование и группирование значений.Преобразование переменных также может устранить выбросы. Натуральный логарифм значения уменьшает вариацию, вызванную экстремальными значениями. Биннинг также является формой преобразования переменных. Алгоритм дерева решений позволяет хорошо справляться с выбросами за счет бинирования переменных. Мы также можем использовать процесс присвоения весов различным наблюдениям.
Вменение:Как и вменение пропущенных значений, мы также можем вводить выбросы. Мы можем использовать методы вменения среднего, медианы и моды.
Рассматривать отдельно: Если имеется значительное количество выбросов, мы должны рассматривать их отдельно в статистическом анализе. модель. Один из подходов состоит в том, чтобы рассматривать обе группы как две разные группы и строить индивидуальные модели для обеих групп, а затем объединять выходные данные.

6) Преобразование переменных:

›Преобразование переменных важно для того, чтобы привести все переменные к одинаковому диапазону, чтобы уменьшить дисперсию модели.

›Существуют различные методы преобразования переменных. Как уже говорилось, некоторые из них включают квадратный корень, кубический корень, логарифмический, биннинг, обратный и многие другие:

Логарифм. Логарифм переменной — это распространенный метод преобразования, используемый для изменения формы распределения переменной на графике распределения. Обычно он используется для уменьшения правой асимметрии переменных.
Примечание. Его нельзя применить к нулевым или отрицательным значениям.
Стандартизация или нормализация
Квадратный/кубический корень: Квадратный и кубический корень переменной оказывает существенное влияние на распределение переменных. Однако это не так важно, как логарифмическое преобразование. Кубический корень имеет свои преимущества. Его можно применять к отрицательным значениям, включая ноль. Квадратный корень можно применять к положительным значениям, включая ноль.
Биннинг:используется для категоризации переменных. Он выполняется по исходным значениям, процентилю или частоте. Решение о методе категоризации основано на понимании бизнеса. Например, мы можем разделить доход на три категории, а именно: высокий, средний и низкий. Мы также можем выполнять совместное объединение переменных, которое зависит от значения более чем одной переменной.

7) Создание переменных:

› Также необходимо создать необходимые переменные и удалить ненужные переменные из набора данных, чтобы повысить производительность модели.
›Создание производных переменных:это относится к созданию новых переменных из существующих переменных с использованием набора функций или различных методов.
Для создания новых переменных также можно использовать такие методы, как получение журнала переменных, объединение переменных и другие методы преобразования переменных.< br /> ›Создание фиктивных переменных.Одним из наиболее распространенных применений фиктивных переменных является преобразование категориальных переменных в числовые. Фиктивные переменные также называются переменными-индикаторами. Полезно использовать категориальные переменные в качестве предиктора в статистических моделях. Категориальные переменные могут принимать значения 0 и 1. Возьмем переменную «пол». Мы можем создать две переменные, а именно «Var_Male» со значениями 1 (мужчина) и 0 (без мужчин) и «Var_Female» со значениями 1 (женщина) и 0 (без женщин). Мы также можем создать фиктивные переменные для более чем двух классов категориальных переменных с n или n-1 фиктивными переменными.
Наконец, нам нужно будет повторить шаги 4–7 несколько раз, прежде чем мы придем к нашей уточненной модели. .

ОБЗОР:

Это пока с моей стороны. Это один из самых важных шагов в решении проблем машинного обучения или науки о данных. И я попытался объяснить каждый шаг. Пожалуйста, подписывайтесь на меня, чтобы чаще получать такие блоги. Увидимся в следующем блоге.