Подготовка данных — это важный этап анализа данных и машинного обучения, который необходим для извлечения ценной информации и подготовки данных к дальнейшему анализу или моделированию.
Однако это может определенно быть непосильным, особенно с учетом множества методов, доступных в R.
Dplyr: первый семантический подход
Поэтому в пакете dplyr используется семантический подход, который помогает упростить процесс подготовки данных и сделать его более управляемым.
Семантику Dplyr можно обобщить аббревиатурой SFAMSC:
- Выбор: выбор определенных столбцов или строк из набора данных.
- Фильтрация: выбор строк из набора данных на основе определенных критериев.
- Упорядочить: сортировка данных по определенным критериям.
- Изменение: применение функции к столбцу или нескольким столбцам для создания нового столбца или изменения существующие или изменить данные без изменений.
- Сводка: суммирование нескольких строк или столбцов набора данных.
- Объединить и разделить: разделение набора данных на несколько подмножеств или объединение нескольких наборов данных в один набор данных.
3 этапа подготовки данных для машинного обучения/науки о данных
Один или несколько из вышеперечисленных методов можно объединить для выполнения трех шагов процесса подготовки данных:
Шаг 1. Выбор данных
Рассмотрите с помощью команды «выбрать|›обобщение», какие данные доступны, какие отсутствуют и какие данные можно удалить.
Шаг 2. Предварительная обработка данных
Организация с помощью «выбрать|›упорядочить|›фильтр|›разделить|» выбранные вами данные путем форматирования, очистки и выборки из них.
Шаг 3. Преобразование данных
Преобразуйте предварительно обработанные данные, готовые к машинному обучению / науке о данных, с помощью инженерных функций, используя масштабирование, декомпозицию атрибутов и агрегирование атрибутов с помощью «мутации|›суммирования».
Если вам понравился этот пост, рассмотрите возможность подписаться/подписаться, поскольку я продолжаю делиться своим путешествием по прикладной науке о данных / машинному обучению с R и Python.