Это надежный процесс для решения любой аналитической проблемы, применимой к любой области.
Он включает в себя ряд шагов:
- понимание бизнеса
- Понимание данных
- Подготовка данных
- Моделирование данных
- Оценка модели
- Развертывание модели
Рассмотрим каждый шаг подробно
Понимание бизнеса:
- Бизнес-цель: Например, фирма хочет понять, в каком сегменте есть хорошая отдача от инвестиций. Хорошо бы понять их точное требование - это 5%, 10% или 30%?
- Цели анализа данных: разбить проблему и подумать о возможных решениях. Вышеупомянутая проблема может быть решена с помощью анализа сегментов рынка или кластеризации?
Очень важно понимать бизнес-цели и понимать, что важно для бизнеса.
Понимание необработанных данных:
Качественные данные могут дать прекрасные результаты. Понимание типа данных, какие у них столбцы и строки, центральные тенденции, как они связаны…
- Доступные типы наборов данных
- Информация, которую мы можем получить от него
- Изучение данных
- Выполнение проверок качества наборов данных — учитывайте такие факторы, как полнота данных? Данные верны? Есть ли ошибки, если да, то насколько они распространены? Есть ли пропущенное значение?
Подготовка данных:
Подготовьте и очистите данные, чтобы они были готовы к анализу. Если данные являются мусором, то вывод модели будет бессмысленным. Выберите только релевантные данные, интегрируйте файлы данных (мастер-файл), устраните все несоответствия, измените формат, создайте новые функции, если это необходимо.
Моделирование:
Это называется сердцем анализа данных. "Если вы будете пытать данные достаточно долго, они признаются".
Модели должны быть краткими, математически обоснованными, эффективными и легкими. В этой структуре есть два основных шага для построения модели.
- Чтобы найти подходящее семейство моделей
- Найти правильный алгоритм из выбранного семейства
Оценка и развертывание модели:
Не все модели правильны и полезны. Моделирование и оценка являются итеративным процессом. Модели должны быть надежными и эффективными по своей природе.
Спасибо за чтение!!!