Жизненный цикл проектов Data Science!

От сбора данных до развертывания модели (от начала до конца)

1. Сбор данных

Сбор данных — это первый шаг в проекте жизненного цикла науки о данных. Это одна из самых важных вещей в жизненном цикле. Данные могут быть взяты из разных мест, таких как Интернет, данные компании, база данных и многое другое…

2. Исследовательский анализ данных

После сбора данных нам необходимо провести предварительный анализ данных. Это способ визуализации, обобщения и интерпретации информации, скрытой в функциях строк и столбцов.

3. Разработка функций

а. Обработка отсутствующих значений. Отсутствующие значения — одна из наиболее распространенных проблем, с которыми вы сталкиваетесь при разработке функций или подготовке данных. Основная причина отсутствия значений из-за человеческих ошибок и конфиденциальности данных и так далее…

б. Обработка повторяющихся данных. Обычно нам приходится удалять повторяющиеся данные в нашем наборе данных, потому что это может привести к проблеме переобучения.

в. Обработка выбросов. Поскольку большинство алгоритмов машинного обучения и глубокого обучения чувствительны, обучение может занять больше времени, а также дает менее точную модель и плохие результаты.

д. Обработка категориального признака: поскольку алгоритм не понимает категориальные данные, нам нужно преобразовать их в числовые значения.

e. Обработка несбалансированных данных: несбалансированность возникает, когда один или несколько классов имеют очень низкие пропорции/вероятность в обучающих данных по сравнению с другими классами. Наша модель дает плохую предсказательную способность, особенно для класса меньшинства, если мы не обрабатываем несбалансированные данные.

4. Масштабирование функций

После выполнения части разработки функций нам нужно выполнить масштабирование функций. Цель масштабирования признаков — привести все данные к одному масштабу, поскольку каждый признак может варьироваться в разных пределах.

5. Выбор функций

Выбор функций используется для удаления нерелевантных и ненужных функций. Используя выбор функций, мы можем использовать только важные функции, которые важны для прогнозирования модели.

6. Поезд-тестовый сплит

Мы разделили наши данные на обучение и тестирование, чтобы избежать переобучения нашей модели и посмотреть, как работает наша модель.

7. Создание модели

Мы будем обучать модель на наборе обучающих данных, предоставляя ей алгоритм машинного обучения, который она может изучать на основе этих данных и прогнозировать будущие данные.

8. Настройка гиперпараметров

Гиперпараметр используется для выбора оптимальных параметров для обучения модели, чтобы наша модель могла эффективно решать проблему науки о данных.

9. Развертывание модели

Развертывание модели — это последний этап проекта жизненного цикла науки о данных. Основная цель построения модели науки о данных — решить проблему, а модель науки о данных может работать только тогда, когда она находится в производстве и активно используется потребителями.

Пожалуйста, не стесняйтесь оставлять свои комментарии, советы или ошибки.😊

Свяжитесь со мной: LinkedIn | Гитхаб | Электронная почта

Удачного обучения!!! ^_^