Рабочий процесс относится к дорожной карте, которую можно сначала нарисовать для любого проекта, а затем следовать ей, чтобы избежать каких-либо ловушек или тупиков. В машинном обучениирабочий процесс — это просто последовательность шагов, посредством которых разрабатывается проект машинного обучения.

Чтобы разработать модель ML успешно и в срок, мы должны пройти следующие этапы:

  1. Сбор данных. Это самый важный шаг в процессе машинного обучения. Данные являются движущей силой всего процесса. Хорошее качество и точные данные могут дать лучшие результаты. Этот этап обычно занимает больше времени, чем другие этапы. Вот несколько способов сбора данных:Запросите у аналитиков и ИТ-специалистов доступные данные из организации в той же области вашего проекта машинного обучения. Например, если вы разрабатываете модель прогнозирования заболеваний, вы можете запросить данные из больниц. В Интернете полно наборов данных, чтобы обогатить то, что у нас есть, дополнительной информацией. Во многих странах есть открытые платформы данных (например, data gov в США). Если мы работаем над проектом вне работы, эти открытые наборы данных также являются невероятным ресурсом, таким как kaggle или github.
  2. Предварительная обработка данных (анализ и уточнение данных). На этом этапе выполняется вся предварительная обработка. Весь набор данных анализируется и очищается. Выбросы и ошибочные значения удаляются. Наборы данных обычно содержат значения NULL и некоторые значения в строковом типе данных, которые не могут обрабатываться большинством алгоритмов ML. Кроме того, в большинстве случаев набор данных будет содержать объекты, сильно различающиеся по величине, единицам измерения и диапазону. Если оставить их в покое, эти алгоритмы учитывают только величину признаков, пренебрегая единицами измерения. Результаты могут сильно различаться в разных единицах измерения, для этого в наборе данных выполняется масштабирование признаков. После этого выполняется разработка признаков (изменение точек данных на данные, которые модель хочет/способна обрабатывать). Эта часть выполняется с использованием Pandas и других встроенных библиотек для Python/R.
  3. Обучение модели. Теперь, когда набор данных готов, применяется соответствующий алгоритм машинного обучения. Набор данных разделен на две части — обучающий набор и тестовый набор. Обучающий набор — это тот, с помощью которого модель учится. Набор тестов используется для расчета точности, отзыва и т. д., а данные обучения вводятся в алгоритм после определения параметров алгоритма ML.
  4. Тестирование модели.После того, как модель обучена, она тестируется с помощью тестового набора, а иногда вы также можете применить текущие данные для тестирования модели. Если результаты неудовлетворительны, модель следует перенастроить, изменив параметры (так называемая настройка параметров), и перейти к этапу обучения модели.
  5. Развертывание модели.После того, как модель хорошо обучена и протестирована, она запускается в производство. Задача может быть такой же простой, как встраивание модели машинного обучения в веб-приложение или мобильное приложение. Обычно большинство компаний развертывают его в облаке.

Надеюсь, вы поняли рабочий процесс проекта машинного обучения.