Жизненный цикл модели машинного обучения

Так что же такое жизненный цикл? В общих чертах, это процесс, который содержит все с самого начала и до конца.

С точки зрения машинного обучения жизненный цикл модели — это циклический процесс создания эффективной модели машинного обучения. Основная цель этого жизненного цикла — найти решение проблемы, предоставляя машинам интеллект с помощью различных методов.

Определение проблемы. Как мы видели ранее, основная цель модели машинного обучения — найти решение проблемы, которое подводит нас к самому первому этапу этого жизненного цикла; Определение задачи. Задача может быть простой (например, найти наибольшую из двух цифр) или сложной (например, построить нейронную сеть). Ознакомьтесь с бизнес-контекстом и вариантом использования, над которым вы работаете. Тщательно изучите проблему и определите трудности, с которыми вы можете столкнуться. По сути, если вы хотите найти решение проблемы, сначала вам нужно понять проблему, например. Многие сотрудники покидают вашу компанию. Вам нужно выяснить, что нужно сделать, чтобы снизить этот показатель.
Преобразование бизнес-задачи в задачу машинного обучения. Если бизнес-задача не преобразована в задачу машинного обучения, вы не сможете применять какие-либо алгоритмы и не будет модели, например. вы можете применить методы ML, чтобы найти решение вышеупомянутой проблемы. Анализируя другие факторы, такие как заработная плата, срок пребывания в должности, должность и т. д., вы можете найти сходство между сотрудниками, покидающими вашу компанию.
Сбор данных. Этот шаг включает получение данных из различных источников. Собранные данные могут быть в различных форматах. Идея состоит в том, чтобы собрать все соответствующие данные, которые могут помочь вам решить проблему.
Подготовка данных. Это самый важный шаг в полном жизненном цикле модели. Без надлежащей подготовки данных для дальнейших шагов результат может ухудшиться.
Как было сказано ранее, собираемые данные могут быть в разных форматах. Чтобы подготовить его к следующим шагам, мы должны понимать данные, помня о нашей бизнес-задаче. Вот некоторые из шагов, которые можно использовать при подготовке данных:
a. Исследовательский анализ.
1. Проверка корреляции.
2. Преобразование данных в удобочитаемый формат.
3. Проверяйте тенденции с помощью визуализаций.
4. Проверьте правильность данных (например, сумма авиабилета, содержащая отрицательные значения)
5. Проверьте важность переменных данных.
6. Выполните однофакторный/многомерный анализ и т. д.
б. Обработка данных
1. Удалите дубликаты.
2. Проверить наличие выбросов (удалить или обработать в зависимости от типа выброса)
3. Обработать отсутствующие значения (ввести среднее/медианное значение или удалить)
c. Разработка функций
1. Определите важность функции (например, оценка «Fico» может быть важнее, чем «возраст» клиентов при работе с данными кредитной карты)
2. Удалите некоторые функции на основе важности функции (если возможно)
3. Объединить переменные (при необходимости)
4. Создать новые/фиктивные переменные (при необходимости)
5. Преобразовать категориальные переменные в числовые (с использованием методов прямого кодирования или кодирования меток)
6. Проверьте, не несбалансированы ли данные. (перейдите к избыточной или недостаточной выборке, если данные несбалансированы)
Вышеуказанные шаги можно использовать для уменьшения размера собираемых данных и сделать их более читабельными и понятными для машин и людей.
Построение модели. Теперь, когда вы подготовили данные с помощью описанных выше шагов, пришло время построить модель. Тяжелая работа уже проделана на этапе подготовки данных. Что нужно сделать сейчас, так это обучить модель, используя соответствующую технику машинного обучения.
а. Разделите данные на поезд и тест. Модель обучается на данных Train. Модель будет обучаться на основе данных Train, а точность будет проверена с использованием данных Test.
b. Выберите алгоритм ML, который вы хотите использовать, на основе данных. Помните, что проблему можно решить, используя более одного метода машинного обучения.
Проверка. Этот шаг включает проверку построенной модели. На этом шаге проверяется, способна ли обученная модель давать ожидаемые результаты на тестовых данных. Вот некоторые из методов, используемых при проверке модели:
- K-кратная перекрестная проверка
- Перекрестная проверка с исключением одного числа
- Случайная выборка
Вам придется проверить для переобучения (переобученной модели)/недообучения (недостаточно обученной модели), а также для того, чтобы модель работала должным образом.
Развертывание/мониторинг. Если протестированная модель работает должным образом, последним шагом является развертывание модели в реальном мире. Мониторинг предполагает своевременную проверку поведения модели. Правильно отслеживая модель (используя бизнес-KPI и т. д.), вы можете проверить целостность данных, производительность модели, изменение популяции и т. д.

Жизненный цикл модели машинного обучения

Вопросы по теме