Прогнозирование отказов оборудования (сквозной процесс машинного обучения)

Формулировка проблемы

Под техническим обслуживанием понимается процесс обеспечения того, чтобы оборудование, машины, сооружения или любые другие активы работали на запланированном уровне производительности. Он включает в себя различные задачи, проверки, ремонт и техническое обслуживание, направленные на предотвращение сбоев оборудования, продление его срока службы и максимизацию его эффективности и надежности.

На заводах устанавливаются датчики и приборы для контроля параметров оборудования. Эти параметры могут служить индикатором для определения того, находится ли машинное оборудование в хорошем или плохом состоянии. Крайне важно принять меры по смягчению последствий для оборудования до того, как отказы оборудования станут катастрофой. Это может привести к тому, что компания потеряет свою эффективность и понесет более высокие затраты на техническое обслуживание.

Целью прогнозного обслуживания является переход от реактивного подхода, основанного на времени, к проактивной стратегии, основанной на данных и состоянии. Прогнозируя отказы оборудования до того, как они произойдут, организации могут оптимизировать свои усилия по техническому обслуживанию, сократить время простоев и добиться значительной экономии средств, одновременно повышая эксплуатационную надежность и безопасность.

Подход высокого уровня

В этом проекте разработан подход прогнозирования для прогнозирования отказов оборудования на основе его эксплуатационных параметров для повышения общей надежности и безопасности оборудования.

Прогнозирование сквозной классификации моделируется для прогнозирования того, выйдет ли машина из строя или нет, на основе ее параметров. Несколько алгоритмов сравниваются, прежде чем выбрать наиболее эффективный алгоритм, который будет использоваться на платформе.

Цели и успех

для оценки производительности метрикой, которая используется для случаев классификации, является точность. Точность — один из наиболее часто используемых показателей оценки в задачах классификации. Он измеряет долю правильных прогнозов, сделанных классификатором, от общего количества прогнозов. Другими словами, точность показывает, насколько хорошо классификатор правильно идентифицирует экземпляры разных классов. Точность подходит для сбалансированных данных.

Чтобы определить, хорошая ли точность модели или нет, выполняется компромисс между смещением и дисперсией. Хорошая модель классификации обеспечивает баланс между предвзятостью и дисперсией. Он фиксирует основные закономерности в данных, не будучи слишком чувствительным к шуму в обучающих данных. Это приводит к хорошей производительности как на обучающих, так и на тестовых наборах данных.

Ключевое решение

Вот ссылка на набор данных, который используется в этом проекте. Синтетический набор данных смоделирован по образцу существующего фрезерного станка и состоит из 10 000 точек данных, хранящихся в виде строк с девятью функциями в столбцах. В следующей таблице показано описание каждого столбца.

В этом проекте обучаются несколько алгоритмов, таких как логистическая регрессия, машина опорных векторов, наивный Байес, дерево решений, AdaBoost и случайный лес. Для оценки производительности в случаях классификации используется показатель точности. Точность — один из наиболее часто используемых показателей оценки в задачах классификации. Он измеряет долю правильных прогнозов, сделанных классификатором, от общего числа прогнозов. Другими словами, точность показывает, насколько хорошо классификатор правильно идентифицирует экземпляры разных классов. Точность подходит для сбалансированных данных.

Наиболее эффективной моделью является дерево решений со значением max_eep, равным 5, поэтому выбран алгоритм.

Ключевые потоки

На рисунке выше представлена блок-схема сквозного процесса машинного обучения. После выбора набора данных необходим процесс очистки данных. Процесс состоит из удаления неиспользуемых столбцов, проверки нулевых данных и удаления их из набора данных. После этого предпринимается этап защиты данных, чтобы убедиться в типе данных и диапазоне в каждом столбце. Чтобы предотвратить утечку данных, набор данных разделяется на обучающие и тестовые данные с коэффициентом разделения тестов, равным 2.

Данные обучения делятся на основе предикторов и целевой метки. К функциям прогнозирования относятся тип, температура воздуха, температура процесса, скорость вращения, крутящий момент и износ инструмента, тогда как целевая метка представляет собой двоичную метку (0 = нормальное и 1 = нарушенное). После этого проводится исследовательский анализ данных, чтобы предотвратить предвзятость и удалить выбросы предикторов. В столбце «Тип», который является столбцом категории, выполняется процесс кодирования, позволяющий моделировать данные в столбце.

Перед обучением с использованием нескольких алгоритмов в качестве ориентира необходимо базовое значение. Поскольку данные были сбалансированы с использованием случайной заниженной выборки, базовое значение должно составлять около 50%. После обучения модели с помощью алгоритмов списка, упомянутых в предыдущем разделе, настройка гиперпараметров выполняется с помощью GridSearchCV. После этого наиболее эффективная модель сохраняется в формате рассола. В процессе развертывания используются FastAPI и Streamlit.

Готовность к запуску

В данной таблице показаны сроки реализации проекта. На завершение проекта с нуля уходит восемь недель. Исследовательский анализ данных (EDA) — самый длительный период, за которым следует моделирование и настройка гиперпараметров.

Артефакт

Таким образом, завершение проекта включает в себя различные артефакты, которые представляют собой файлы и ресурсы, которые помогают на разных этапах жизненного цикла проекта.

1. Программное обеспечение: Jupyter Notebook и Python.

2. Аппаратное обеспечение: компьютер/ноутбук.

3. Файлы: набор данных и список библиотек, которые необходимо установить в виртуальной среде.

Ссылки

1. Видеокурс Pacmann

2. Гитхаб

3. Линкедин

Прогнозирование отказов оборудования (сквозной процесс машинного обучения)

Вопросы по теме