МЕТОДЫ ПРЕДВАРИТЕЛЬНОЙ ОБРАБОТКИ ДАННЫХ в R.

Связаться с isaac tonyloi.

Данные действительно стали важной частью нашей повседневной жизни, они, по сути, определяют все решения, которые мы принимаем, будь то в крупных организациях, на малых и средних предприятиях и даже на личном уровне.

Но большой вопрос в том, насколько точны решения, которые мы принимаем на основе собираемых данных? Качество моделей, на которых мы основываем свое решение, во многом зависит от достоверности данных, которые мы получаем.

При получении непосредственно из источника данные обычно не в той форме, которая может быть напрямую использована при принятии решений, они нуждаются в некоторых настройках, прежде чем их можно будет считать пригодными для использования при принятии важных решений. В этой статье я выделю некоторые шаги, которые мы можем предпринять, чтобы наши данные стали пригодными для моделирования;

1. Обработка отсутствующих значений.

Отсутствующие значения могут возникать в результате различных проблем, набор данных обычно может содержать отсутствующие, поскольку они не были записаны, или в результате объединения разных таблиц, что приводит к отсутствию значения.

В R is.na () - это типичный метод, который мы используем при проверке отсутствующего значения в парных списках атомарных векторов, списках и NULL. Метод возвращает логическое значение Истина для пропущенных значений и Ложь в противном случае. Вы также можете использовать функцию sum (is.na ()), чтобы получить сумму пропущенных значений, отмеченных NA в ваших данных.

Существует множество способов обработки недостающих данных, если они обнаружены;

а) УДАЛЕНИЕ

Это один из самых простых способов обработки. Вы можете выбрать либо попарное удаление, которое влечет за собой анализ данных без пропущенных значений, либо выполнение удаления по списку, при котором вы покончите с вся строка, содержащая пропущенные значения.

б) ВСТАВКА.

При использовании этого метода мы обычно заменяем отсутствующие данные на среднее значение, режим или медианное значение. Этот вид вменения можно разделить на два типа; общий метод вменения, при котором мы вычисляем среднее или медианное всех существующих данных и используем его для замены всех недостающих данных. У нас также есть вмененное значение для конкретного случая. В этом случае мы вычисляем среднее для каждого набора данных и заменяем каждый набор пропущенных значений соответствующим средним, вычисленным на основе каждого из существующих значения данного набора данных (ищите дальнейшие разъяснения в других источниках

2. OUTLIERS.

Согласно Википедии, выбросом является точка данных, которая значительно отличается от остальных наблюдений. Когда дело доходит до анализа данных, они могут привести к неправильному выводу. Всякий раз, когда в данных присутствует выброс, одного этого достаточно, чтобы вызвать подозрение, что в ваших данных может быть проблема. Наличие выбросов может быть связано с ошибкой, произошедшей во время сбора данных. Поэтому разумно сначала проверить выбросы, прежде чем приступить к анализу данных.

а) Проверка данных

В зависимости от типа данных, с которыми вы иногда имеете дело, просто просматривая данные, можно определить место возможного выброса, например, если вы имеете дело с ожидаемой продолжительностью жизни человека, выброс можно легко обнаружить, если есть значение, которое намного выше 100 лет, или, если это больница, задействованные данные могут быть артериальным давлением людей, которые заранее знают, какой нормальный диапазон артериального давления ожидается, одного достаточно, чтобы обнаружить выброс.

б) Диаграммы среднего значения, режима и визуализации.

Среднее значение и режим также являются важными показателями центральной тенденции, которые могут дать вам представление о возможном выбросе в ваших данных, потому что, как следует из их названия, они дают подсказку о том, где находится большая часть значений набора данных.

Помимо всего этого, вы можете использовать один из наиболее распространенных типов визуальных инструментов, это может быть прямоугольная диаграмма, линейная диаграмма или диаграмма рассеяния. Ящичковая диаграмма обычно наиболее эффективна при обнаружении выбросов, помимо диаграммы рассеяния.

коробчатая диаграмма (данные)

3. ПЕРЕМЕННАЯ ПРЕОБРАЗОВАНИЕ.

Еще до того, как вы протестируете и развернете эту модель, вы несколько раз работали над ней, чтобы проверить, соответствуют ли ваши данные сделанным вами предположениям. Например, в линейной регрессии предполагается: нормальность ошибок, гомоскедастичность и линейность, если одно или несколько из вышеперечисленных предположений нарушаются, у нас будет причина для преобразования переменных.

Другая причина, которая может вынудить вас выполнить преобразование переменных для уменьшения размерности с использованием таких методов, как Анализ главных компонентов, заключается в том, что вы хотите упростить визуализацию для облегчения интерпретации.

Заключение

Чтобы избавить себя от необходимости придумывать гиперпараметры в попытке повысить точность ваших моделей, рекомендуется рассматривать предварительную обработку данных как одну из самых первых и жизненно важных шаг к созданию и развертыванию потрясающих моделей машинного обучения или при выполнении анализа данных.

[email protected]

МЕТОДЫ ПРЕДВАРИТЕЛЬНОЙ ОБРАБОТКИ ДАННЫХ в R.

Вопросы по теме