Подготовка данных — это важный этап анализа данных и машинного обучения, который необходим для извлечения ценной информации и подготовки данных к дальнейшему анализу или моделированию.

Однако это может определенно быть непосильным, особенно с учетом множества методов, доступных в R.

Dplyr: первый семантический подход

Поэтому в пакете dplyr используется семантический подход, который помогает упростить процесс подготовки данных и сделать его более управляемым.

Семантику Dplyr можно обобщить аббревиатурой SFAMSC:

  • Выбор: выбор определенных столбцов или строк из набора данных.
  • Фильтрация: выбор строк из набора данных на основе определенных критериев.
  • Упорядочить: сортировка данных по определенным критериям.
  • Изменение: применение функции к столбцу или нескольким столбцам для создания нового столбца или изменения существующие или изменить данные без изменений.
  • Сводка: суммирование нескольких строк или столбцов набора данных.
  • Объединить и разделить: разделение набора данных на несколько подмножеств или объединение нескольких наборов данных в один набор данных.

3 этапа подготовки данных для машинного обучения/науки о данных

Один или несколько из вышеперечисленных методов можно объединить для выполнения трех шагов процесса подготовки данных:

Шаг 1. Выбор данных
Рассмотрите с помощью команды «выбрать|›обобщение», какие данные доступны, какие отсутствуют и какие данные можно удалить.

Шаг 2. Предварительная обработка данных
Организация с помощью «выбрать|›упорядочить|›фильтр|›разделить|» выбранные вами данные путем форматирования, очистки и выборки из них.

Шаг 3. Преобразование данных
Преобразуйте предварительно обработанные данные, готовые к машинному обучению / науке о данных, с помощью инженерных функций, используя масштабирование, декомпозицию атрибутов и агрегирование атрибутов с помощью «мутации|›суммирования».

Если вам понравился этот пост, рассмотрите возможность подписаться/подписаться, поскольку я продолжаю делиться своим путешествием по прикладной науке о данных / машинному обучению с R и Python.