Суть фреймворков процесса машинного обучения — KDD, CRISP-DM

Введение

Очень редко мы официально обсуждаем различные структуры процессов анализа данных, которые полезны для управления жизненным циклом наших проектов по анализу данных и машинному обучению. Суть любой структуры анализа данных и интеллектуального анализа данных заключается в сборе данных, предварительной обработке данных, анализе для поиска скрытых идей и рассказывании историй. В этом посте я кратко коснусь этих процессов, а также отличительных особенностей и сходства различных таких фреймворков.



Структуры процесса анализа данных

Процесс КДД

KDD означает обнаружение знаний из данных или обнаружение знаний в базах данных. Основной целью этой структуры процесса является извлечение или обнаружение скрытых шаблонов из больших баз данных. Это может быть хранилище данных или витрина данных для описательного или предписывающего анализа. Он имеет 7 — фаз:

  1. Очистка данных: удаляется шум, обрабатываются отсутствующие значения и обнаруживаются выбросы.
  2. Интеграция данных: объединяйте данные из разных источников и выполняйте ETL.
  3. Выбор данных: выберите релевантные данные для конкретной задачи анализа.
  4. Преобразование данных: разработка данных, разработка функций специально для задачи анализа.
  5. Интеллектуальный анализ данных: находите полезные и неизвестные шаблоны с помощью методов интеллектуального анализа данных.
  6. Оценка шаблона: оценка извлеченных шаблонов для задачи бизнес-анализа.
  7. Представление знаний: визуализируйте и представьте деловым людям для принятия решений.

СЕММА

SEMMA – это аббревиатура от слов Образец, Исследовать, Изменить, Модель и Оценить. Таким образом, он состоит из 5 этапов:

  1. Пример: определите разные базы данных и объедините их; выбрать образец, достаточный для процесса моделирования
  2. Исследовать: анализировать данные, обнаруживать связи между
    переменными, визуализировать данные и получать первоначальные интерпретации.
  3. Изменить. Работа с отсутствующими значениями, обнаружение выбросов, преобразование функций и создание новых дополнительных функций.
  4. Модель. Применение различных методов моделирования.
  5. Оценить. Оцените производительность моделей с помощью базовых показателей.

SEMMA уделяет особое внимание построению и оценке моделей

КРИСП-ДМ

Процесс Cross-InduStry для интеллектуального анализа данных (CRISP-DM) — это четко определенная и проверенная структура машинного обучения и интеллектуального анализа данных. Это практично, циклично, гибко для решения бизнес-задач. CRISP-DM состоит из 6 этапов:

  1. Бизнес-понимание: понимание бизнес-сценария и соблюдение требований; получить первоначальный план действий.
  2. Понимание данных: понимание данных и процесса их сбора, проверка качества данных и получение первоначальной информации.
  3. Подготовка данных. Подготовьте данные для аналитики, исправив пропущенные значения, обнаружив и обработав выбросы, а также разработав общие функции. Это самый важный этап.
  4. Моделирование: проектирование и проверка модели с использованием различных алгоритмов и методов.
  5. Оценка: оценивайте и тестируйте производительность модели при проверке и тестировании данных с использованием показателей оценки модели, таких как MSE, RMSE, R-Square для регрессии и точности, прецизионности, полноты и F1-мера.
  6. Развертывание. Заключительный этап — модель, выбранная на предыдущем шаге, будет развернута в производственной среде. Внедрите MLOps для полного управления жизненным циклом.

На следующей диаграмме показан полный цикл для CRISP-DM —



Резюме

В посте кратко объясняются различные платформы анализа данных, интеллектуального анализа данных и машинного обучения — KDD в основном фокусируется на обнаружении шаблонов на основе данных. Руководства SEMMA в основном сосредоточены на задачах построения моделей. Наконец, основная сила CRISP-DM заключается в том, чтобы сосредоточиться в основном на понимании бизнеса и развертывании модели до производства.