Подготовка данных — один из самых важных шагов в процессе решения любой задачи, связанной с наукой о данных или машинным обучением.
В этом блоге мы расскажем обо всех этапах как можно подробнее.
Ниже приведены основные этапы подготовки данных:
- Идентификация переменных:
›Сначала определите переменные-предикторы (входные) и целевые (выходные).
›Далее определите тип данных и категорию переменных.
›Предположим, мы хотим предсказать, будут ли студенты играть в крикет или нет (см. ниже набор данных).
›Здесь вам нужно определить переменные-предикторы, целевые переменные, тип данных переменных и категорию переменных.
2) Одномерный анализ:
На этом этапе мы исследуем переменные одну за другой. Методы выполнения одномерного анализа будут зависеть от того, является ли тип переменной категориальным или непрерывным.
Давайте рассмотрим эти методы и статистические показатели для категориальных и непрерывных переменных по отдельности:
Непрерывные переменные: – В случае непрерывных переменных нам необходимо понять центральную тенденцию и распространение переменной.
Категорические переменные: – Для категориальные переменные, мы будем использовать таблицы частот, чтобы понять распределение каждой категории. Мы также можем прочитать процент значений в каждой категории. Одномерный анализ также используется для выделения отсутствующих и выпадающих значений.
3) Двумерный анализ:
›Двумерный анализ выявляет взаимосвязь между двумя переменными.
›Здесь мы ищем ассоциацию и диссоциацию между переменными с заранее определенной значимостью. уровне.
›Мы можем выполнить двумерный анализ для любой комбинации категориальных и непрерывных переменных.
›Комбинация может быть: категориальной и категориальной, категориальной и непрерывной и непрерывной и непрерывной.
›Различные методы используются для решения этих комбинаций в процессе анализа.
Непрерывный и непрерывный:
›Диаграмма рассеяния показывает взаимосвязь между двумя переменными, но не указывает силу взаимосвязи между ними.
›Чтобы найти сила связи, мы используем Correlation (corrcoef). ›Корреляция варьируется от -1 (полная отрицательная корреляция) до +1 (полная положительная корреляция)
Корреляция = ковариация (X, Y)/Var(X)*Var(Y)
Категорический и категориальный:
›Двусторонняя таблица: мы можем начать анализ отношений, создав двустороннюю таблицу подсчета и подсчета%. Строки представляют категорию одной переменной, а столбцы представляют категории другой переменной.
›Столбчатая диаграмма с накоплением: этот метод больше похож на визуальную форму двусторонней таблицы.
›Хи-квадрат. основан на разнице между ожидаемой и наблюдаемой частотами в одной или нескольких категориях в двусторонней таблице. Он возвращает вероятность для вычисленного распределения хи-квадрат со степенью свободы.
**Вероятность 0 указывает на то, что оба являются зависимыми.
**Вероятность 1 указывает на то, что оба являются независимыми.
**Вероятность менее 0,05 указывает на то, что взаимосвязь между переменными значима при достоверности 95%.
Категорические и непрерывные:
›Исследуя взаимосвязь между категориальными и непрерывными переменными, мы можем рисовать диаграммы для каждого уровня категориальных переменных.
›Если количество уровней невелико, это не покажет статистическую значимость.
›Чтобы посмотреть на статистическую значимость, мы можем выполнить Z-тест, Т-тест или ANOVA.
›Z-тест/Т-тест : - Любой тест оценивает, статистически отличаются ли средние значения двух групп друг от друга или нет.
›Если вероятность Z мала, то разница двух средних значений более значительна. T-критерий очень похож на Z-критерий, но он используется, когда количество наблюдений для обеих категорий меньше 30.
›ANOVA — оценивает, статистически отличаются ли средние значения более чем двух групп.
4) Обработка пропущенных значений:
›Отсутствующие данные в наборе обучающих данных могут снизить мощность/подгонку модели или могут привести к необъективной модели, поскольку мы не проанализировали поведение и взаимосвязь. с другими переменными правильно.
›Это может привести к неправильным прогнозам или классификации.
Почему данные содержат пропущенные значения?
›Отсутствующие данные или пропущенные значения возникают, когда у вас нет сохраненных данных для определенных переменных или участников.
›Данные могут пропадать из-за неполного ввода данных, сбоев в работе оборудования, потери файлов и многих других причин.
Методы обработки отсутствующих значений в наборе данных:
Дело Удаление:
Мы можем просто удалить экземпляр или строку из данных, где мы получаем нулевые значения, используя следующие два метода.
- Удаление по списку
- Попарное удаление
Мудрое удаление списка работает, когда
- Данные отсутствуют полностью случайным образом (MCAR)
- У вас в любом случае достаточно мощности, даже если вы потеряли часть своего набора данных
Приведенный ниже код используется для удаления всех строк, которые имеют нулевые значения в python.
data.dropna()
Импутация данных.Импутация — это процесс замены отсутствующих данных замененными значениями. При замене точки данных.
Подстановка среднего/медианы/моды:
- Выбор для пропущенных значений, которые, как известно, не равны нулю, заключается в использовании некоторых центральных значений, таких как среднее значение, медиана или мода.
- Это грубый подход к вменению, который может привести к плохой работе.
- В python мы можем сделать это, используя:
›Для среднего:
data.fillna(data.mean())
›Для медианы:
data.fillna(data.median())
›Для режима:
data.fillna(data.mode())
Вменение горячей колоды:
- Заполняется случайно выбранное значение от человека в выборке, который имеет аналогичные значения по другим переменным.
Вменение регрессии:
- Прогнозируемое значение, полученное путем регрессии отсутствующей переменной на другие переменные, заполняется.
Метод заполнения назад и вперед
- «Заполнение вперед» будет распространять последнее действительное наблюдение вперед.
- «Обратная заливка» используется для обратной заливки пропущенных значений в наборе данных.
- Синтаксис в Python:
- Заполнение вперед
df[‘имя_столбца’].ffill(ось = 1)
- Обратная заливка
df[‘имя_столбца’].bfill(ось = 1)
5) Обработка выбросов:
›Выброс — это наблюдение, которое появляется далеко и отличается от общей закономерности выборки.
›Выбросом в статистике является точка наблюдения, удаленная от других наблюдений.
›Удаление наблюдений: мы удаляем значения выбросов, если они вызваны ошибкой ввода данных, ошибкой обработки данных или числом наблюдений выбросов очень мало.
›Преобразование и группирование значений.Преобразование переменных также может устранить выбросы. Натуральный логарифм значения уменьшает вариацию, вызванную экстремальными значениями. Биннинг также является формой преобразования переменных. Алгоритм дерева решений позволяет хорошо справляться с выбросами за счет бинирования переменных. Мы также можем использовать процесс присвоения весов различным наблюдениям.
›Вменение:Как и вменение пропущенных значений, мы также можем вводить выбросы. Мы можем использовать методы вменения среднего, медианы и моды.
›Рассматривать отдельно: Если имеется значительное количество выбросов, мы должны рассматривать их отдельно в статистическом анализе. модель. Один из подходов состоит в том, чтобы рассматривать обе группы как две разные группы и строить индивидуальные модели для обеих групп, а затем объединять выходные данные.
6) Преобразование переменных:
›Преобразование переменных важно для того, чтобы привести все переменные к одинаковому диапазону, чтобы уменьшить дисперсию модели.
›Существуют различные методы преобразования переменных. Как уже говорилось, некоторые из них включают квадратный корень, кубический корень, логарифмический, биннинг, обратный и многие другие:
›Логарифм. Логарифм переменной — это распространенный метод преобразования, используемый для изменения формы распределения переменной на графике распределения. Обычно он используется для уменьшения правой асимметрии переменных.
Примечание. Его нельзя применить к нулевым или отрицательным значениям.
Стандартизация или нормализация
› Квадратный/кубический корень: Квадратный и кубический корень переменной оказывает существенное влияние на распределение переменных. Однако это не так важно, как логарифмическое преобразование. Кубический корень имеет свои преимущества. Его можно применять к отрицательным значениям, включая ноль. Квадратный корень можно применять к положительным значениям, включая ноль.
›Биннинг:используется для категоризации переменных. Он выполняется по исходным значениям, процентилю или частоте. Решение о методе категоризации основано на понимании бизнеса. Например, мы можем разделить доход на три категории, а именно: высокий, средний и низкий. Мы также можем выполнять совместное объединение переменных, которое зависит от значения более чем одной переменной.
7) Создание переменных:
› Также необходимо создать необходимые переменные и удалить ненужные переменные из набора данных, чтобы повысить производительность модели.
›Создание производных переменных:это относится к созданию новых переменных из существующих переменных с использованием набора функций или различных методов.
Для создания новых переменных также можно использовать такие методы, как получение журнала переменных, объединение переменных и другие методы преобразования переменных.< br /> ›Создание фиктивных переменных.Одним из наиболее распространенных применений фиктивных переменных является преобразование категориальных переменных в числовые. Фиктивные переменные также называются переменными-индикаторами. Полезно использовать категориальные переменные в качестве предиктора в статистических моделях. Категориальные переменные могут принимать значения 0 и 1. Возьмем переменную «пол». Мы можем создать две переменные, а именно «Var_Male» со значениями 1 (мужчина) и 0 (без мужчин) и «Var_Female» со значениями 1 (женщина) и 0 (без женщин). Мы также можем создать фиктивные переменные для более чем двух классов категориальных переменных с n или n-1 фиктивными переменными.
Наконец, нам нужно будет повторить шаги 4–7 несколько раз, прежде чем мы придем к нашей уточненной модели. .
ОБЗОР:
Это пока с моей стороны. Это один из самых важных шагов в решении проблем машинного обучения или науки о данных. И я попытался объяснить каждый шаг. Пожалуйста, подписывайтесь на меня, чтобы чаще получать такие блоги. Увидимся в следующем блоге.