ПОДГОТОВКА ДАННЫХ

Подготовка данных — один из самых важных шагов в процессе решения любой задачи, связанной с наукой о данных или машинным обучением.
В этом блоге мы расскажем обо всех этапах как можно подробнее.

Ниже приведены основные этапы подготовки данных:

Идентификация переменных:
›Сначала определите переменные-предикторы (входные) и целевые (выходные).
›Далее определите тип данных и категорию переменных.
›Предположим, мы хотим предсказать, будут ли студенты играть в крикет или нет (см. ниже набор данных).
›Здесь вам нужно определить переменные-предикторы, целевые переменные, тип данных переменных и категорию переменных.

2) Одномерный анализ:

На этом этапе мы исследуем переменные одну за другой. Методы выполнения одномерного анализа будут зависеть от того, является ли тип переменной категориальным или непрерывным.

Давайте рассмотрим эти методы и статистические показатели для категориальных и непрерывных переменных по отдельности:

Непрерывные переменные: – В случае непрерывных переменных нам необходимо понять центральную тенденцию и распространение переменной.

Категорические переменные: – Для категориальные переменные, мы будем использовать таблицы частот, чтобы понять распределение каждой категории. Мы также можем прочитать процент значений в каждой категории. Одномерный анализ также используется для выделения отсутствующих и выпадающих значений.

3) Двумерный анализ:
›Двумерный анализ выявляет взаимосвязь между двумя переменными.
›Здесь мы ищем ассоциацию и диссоциацию между переменными с заранее определенной значимостью. уровне.
›Мы можем выполнить двумерный анализ для любой комбинации категориальных и непрерывных переменных.
›Комбинация может быть: категориальной и категориальной, категориальной и непрерывной и непрерывной и непрерывной.
›Различные методы используются для решения этих комбинаций в процессе анализа.

Непрерывный и непрерывный:
›Диаграмма рассеяния показывает взаимосвязь между двумя переменными, но не указывает силу взаимосвязи между ними.
›Чтобы найти сила связи, мы используем Correlation (corrcoef). ›Корреляция варьируется от -1 (полная отрицательная корреляция) до +1 (полная положительная корреляция)
Корреляция = ковариация (X, Y)/Var(X)*Var(Y)

Категорический и категориальный:
›Двусторонняя таблица: мы можем начать анализ отношений, создав двустороннюю таблицу подсчета и подсчета%. Строки представляют категорию одной переменной, а столбцы представляют категории другой переменной.
›Столбчатая диаграмма с накоплением: этот метод больше похож на визуальную форму двусторонней таблицы.
›Хи-квадрат. основан на разнице между ожидаемой и наблюдаемой частотами в одной или нескольких категориях в двусторонней таблице. Он возвращает вероятность для вычисленного распределения хи-квадрат со степенью свободы.
**Вероятность 0 указывает на то, что оба являются зависимыми.
**Вероятность 1 указывает на то, что оба являются независимыми.
**Вероятность менее 0,05 указывает на то, что взаимосвязь между переменными значима при достоверности 95%.

Категорические и непрерывные:
›Исследуя взаимосвязь между категориальными и непрерывными переменными, мы можем рисовать диаграммы для каждого уровня категориальных переменных.
›Если количество уровней невелико, это не покажет статистическую значимость.
›Чтобы посмотреть на статистическую значимость, мы можем выполнить Z-тест, Т-тест или ANOVA.
›Z-тест/Т-тест : - Любой тест оценивает, статистически отличаются ли средние значения двух групп друг от друга или нет.
›Если вероятность Z мала, то разница двух средних значений более значительна. T-критерий очень похож на Z-критерий, но он используется, когда количество наблюдений для обеих категорий меньше 30.
›ANOVA — оценивает, статистически отличаются ли средние значения более чем двух групп.

4) Обработка пропущенных значений:
›Отсутствующие данные в наборе обучающих данных могут снизить мощность/подгонку модели или могут привести к необъективной модели, поскольку мы не проанализировали поведение и взаимосвязь. с другими переменными правильно.
›Это может привести к неправильным прогнозам или классификации.

Почему данные содержат пропущенные значения?
›Отсутствующие данные или пропущенные значения возникают, когда у вас нет сохраненных данных для определенных переменных или участников.
›Данные могут пропадать из-за неполного ввода данных, сбоев в работе оборудования, потери файлов и многих других причин.

Методы обработки отсутствующих значений в наборе данных:

Дело Удаление:

Мы можем просто удалить экземпляр или строку из данных, где мы получаем нулевые значения, используя следующие два метода.

Удаление по списку
Попарное удаление

Мудрое удаление списка работает, когда

Данные отсутствуют полностью случайным образом (MCAR)
У вас в любом случае достаточно мощности, даже если вы потеряли часть своего набора данных

Приведенный ниже код используется для удаления всех строк, которые имеют нулевые значения в python.

data.dropna()

Импутация данных.Импутация — это процесс замены отсутствующих данных замененными значениями. При замене точки данных.

Подстановка среднего/медианы/моды:

Выбор для пропущенных значений, которые, как известно, не равны нулю, заключается в использовании некоторых центральных значений, таких как среднее значение, медиана или мода.
Это грубый подход к вменению, который может привести к плохой работе.
В python мы можем сделать это, используя:

›Для среднего:

data.fillna(data.mean())

›Для медианы:

data.fillna(data.median())

›Для режима:

data.fillna(data.mode())

Вменение горячей колоды:

Заполняется случайно выбранное значение от человека в выборке, который имеет аналогичные значения по другим переменным.

Вменение регрессии:

Прогнозируемое значение, полученное путем регрессии отсутствующей переменной на другие переменные, заполняется.

Метод заполнения назад и вперед

«Заполнение вперед» будет распространять последнее действительное наблюдение вперед.
«Обратная заливка» используется для обратной заливки пропущенных значений в наборе данных.
Синтаксис в Python:
Заполнение вперед

df[‘имя_столбца’].ffill(ось = 1)

Обратная заливка

df[‘имя_столбца’].bfill(ось = 1)

5) Обработка выбросов:

›Выброс — это наблюдение, которое появляется далеко и отличается от общей закономерности выборки.
›Выбросом в статистике является точка наблюдения, удаленная от других наблюдений.

›Удаление наблюдений: мы удаляем значения выбросов, если они вызваны ошибкой ввода данных, ошибкой обработки данных или числом наблюдений выбросов очень мало.
›Преобразование и группирование значений.Преобразование переменных также может устранить выбросы. Натуральный логарифм значения уменьшает вариацию, вызванную экстремальными значениями. Биннинг также является формой преобразования переменных. Алгоритм дерева решений позволяет хорошо справляться с выбросами за счет бинирования переменных. Мы также можем использовать процесс присвоения весов различным наблюдениям.
›Вменение:Как и вменение пропущенных значений, мы также можем вводить выбросы. Мы можем использовать методы вменения среднего, медианы и моды.
›Рассматривать отдельно: Если имеется значительное количество выбросов, мы должны рассматривать их отдельно в статистическом анализе. модель. Один из подходов состоит в том, чтобы рассматривать обе группы как две разные группы и строить индивидуальные модели для обеих групп, а затем объединять выходные данные.

6) Преобразование переменных:

›Преобразование переменных важно для того, чтобы привести все переменные к одинаковому диапазону, чтобы уменьшить дисперсию модели.

›Существуют различные методы преобразования переменных. Как уже говорилось, некоторые из них включают квадратный корень, кубический корень, логарифмический, биннинг, обратный и многие другие:

›Логарифм. Логарифм переменной — это распространенный метод преобразования, используемый для изменения формы распределения переменной на графике распределения. Обычно он используется для уменьшения правой асимметрии переменных.
Примечание. Его нельзя применить к нулевым или отрицательным значениям.
Стандартизация или нормализация
› Квадратный/кубический корень: Квадратный и кубический корень переменной оказывает существенное влияние на распределение переменных. Однако это не так важно, как логарифмическое преобразование. Кубический корень имеет свои преимущества. Его можно применять к отрицательным значениям, включая ноль. Квадратный корень можно применять к положительным значениям, включая ноль.
›Биннинг:используется для категоризации переменных. Он выполняется по исходным значениям, процентилю или частоте. Решение о методе категоризации основано на понимании бизнеса. Например, мы можем разделить доход на три категории, а именно: высокий, средний и низкий. Мы также можем выполнять совместное объединение переменных, которое зависит от значения более чем одной переменной.

7) Создание переменных:

› Также необходимо создать необходимые переменные и удалить ненужные переменные из набора данных, чтобы повысить производительность модели.
›Создание производных переменных:это относится к созданию новых переменных из существующих переменных с использованием набора функций или различных методов.
Для создания новых переменных также можно использовать такие методы, как получение журнала переменных, объединение переменных и другие методы преобразования переменных.< br /> ›Создание фиктивных переменных.Одним из наиболее распространенных применений фиктивных переменных является преобразование категориальных переменных в числовые. Фиктивные переменные также называются переменными-индикаторами. Полезно использовать категориальные переменные в качестве предиктора в статистических моделях. Категориальные переменные могут принимать значения 0 и 1. Возьмем переменную «пол». Мы можем создать две переменные, а именно «Var_Male» со значениями 1 (мужчина) и 0 (без мужчин) и «Var_Female» со значениями 1 (женщина) и 0 (без женщин). Мы также можем создать фиктивные переменные для более чем двух классов категориальных переменных с n или n-1 фиктивными переменными.
Наконец, нам нужно будет повторить шаги 4–7 несколько раз, прежде чем мы придем к нашей уточненной модели. .

ОБЗОР:

Это пока с моей стороны. Это один из самых важных шагов в решении проблем машинного обучения или науки о данных. И я попытался объяснить каждый шаг. Пожалуйста, подписывайтесь на меня, чтобы чаще получать такие блоги. Увидимся в следующем блоге.

ПОДГОТОВКА ДАННЫХ

Вопросы по теме