Обнаружение отказов системы защиты от давления в грузовиках Scania с помощью машинного обучения

Машинное обучение как навык в основном ассоциируется со «студентами информатики». Благодаря способности машинного обучения решать критические проблемы, которые напрямую влияют на итоговую прибыль организации, оно находит проникновение в различные области машиностроения, например цепочка поставок, управление запасами, производство и т. д. Таким образом, инженеры-механики должны увидеть огромный рост спроса на программирование и понимание новых методов снижения затрат с помощью машинного обучения.

В этой статье мы исследуем набор данных по системе защиты от давления для прогнозирования отказов грузовиков Scania. Набор данных фокусируется на комбинации показаний датчиков, которые указывают на необходимость проверки грузовика, чтобы избежать поломки.

Мы будем использовать методы машинного обучения, чтобы помочь нам в будущем прогнозировать, нужно ли проверять грузовик, что в противном случае может привести к поломке и потере времени.

Предыстория и определение проблемы

Набор данных состоит из данных, собранных с грузовиков Scania при повседневном использовании. В центре внимания находится система воздушного давления (APS), которая генерирует сжатый воздух, который используется в различных функциях грузовика, таких как торможение и переключение передач. Положительный класс наборов данных состоит из отказов компонентов
для определенного компонента системы APS. В отрицательный класс входят грузовики с отказами по компонентам, не относящимся к АПС. Данные состоят из подмножества всех доступных данных, отобранных экспертами.

Наша цель – минимизировать затраты, связанные с:

  1. Ненужные проверки, выполненные механиком (ложные срабатывания) (10 долларов США)
  2. Пропажа неисправного грузовика, что может привести к поломке в будущем (ложноотрицательный результат) (500 долларов США)

Единицы для данных каждого датчика хранятся в тайне по служебным причинам. Однако основной целью нашей программы будет прогнозировать и минимизировать стоимость отказов, связанных с этими комбинациями показаний.

Источник данных



Дайвинг!

знание scikit-learn, pandas и numpy будет полезно для чтения этой статьи. Шаги, которые следует предпринять для формулировки этой задачи машинного обучения:

  1. Загрузите данные
  2. Предварительная обработка и исследовательский анализ данных
  3. Построить модель с помощью классических алгоритмов машинного обучения
  4. Протестируйте модель
  5. Оценивать и измерять показатели производительности

Загрузите данные

Набор данных был представлен в формате .csv. Мы использовали pandas (pd.read_csv) для загрузки набора данных в виде кадра данных pandas.

Предварительная обработка и исследовательский анализ данных

  1. Данные очень несбалансированы по своей природе. Мы использовали стратегию избыточной выборки, такую ​​как Synthetic Minority Over-sampling Technique (SMOTE), для повторной выборки набора данных.
  2. Чтобы заменить значения NAN, мы пытались использовать различные методы, такие как выполнение импутации с использованием среднего или медианного значения. Другой метод, который мы пробовали, — использовать вменение на основе KNN с использованием библиотеки fancyimpute. Но мы получили лучшие результаты, просто заменив значения Na на -1 как в обучающих, так и в тестовых данных.

Создавайте модели машинного обучения

1. Логистическая регрессия:

Логистическая регрессия (LR) предполагает, что данные линейно разделимы. В LR цель состоит в том, чтобы найти гиперплоскость, которая лучше всего разделяет положительные и отрицательные точки. Мы выбрали LR в качестве нашей первой модели, поскольку сначала хотели проверить, как линейная модель работает с нашими данными.

Лучшая стоимость, полученная с моделью LR, составляет 17530$, что не так уж и плохо!

2.Наивный байесовский метод

После внедрения линейного классификатора мы попытались работать с вероятностным классификатором, т.е. наивным байесовским (NB). NB основан на предположении о независимости признаков.

Наилучшая стоимость, полученная с помощью классификатора NB, составила 23280$, что плохо по сравнению с тем, что мы получили с помощью логистической регрессии.

3. Градиентные деревья принятия решений (GBDT)

После работы с линейными моделями мы попытались реализовать более сложные алгоритмы бустинга. Поскольку наши данные не имеют очень большого количества функций, время обучения для обучения классификатора GBDT не будет значительно выше. GBDT или любой алгоритм бустингасоздает модель прогнозирования в виде ансамбля слабых моделей прогнозирования, обычно деревьев решений.

  • Повышение = множество слабых прогностических моделей в сильную в виде ансамбля слабых моделей.
  • Дерево решений с градиентным усилением = GB с моделями деревьев решений в качестве слабых моделей.

Наилучшая стоимость, полученная с помощью модели LR, составляет 14980$, что лучше, чем у классификаторов LR и NB!

4. CatBoost

Поскольку мы получили улучшенные результаты с GBDT, мы попробовали другой алгоритм повышения — CatBoost. CatBoost — недавно открытый алгоритм машинного обучения от Яндекса. Его можно легко интегрировать со средами глубокого обучения, такими как TensorFlow и Apple Core ML.

Он особенно силен в двух отношениях:

  • Он дает самые современные результаты без обширного обучения данных, которое обычно требуется для других методов машинного обучения, и
  • Предоставляет мощную готовую поддержку для более описательных форматов данных, которые сопровождают многие бизнес-задачи.

Лучшая стоимость, полученная с моделью LR, составляет 14690$, что не так уж сильно отличается от GBDT.

5. Случайный лес (РФ)

Случайный лес также использует метод обучения ансамбль, то есть он объединяет множество базовых моделей в одну, используя все прогнозы отдельных моделей вместе. Модели, которые он объединяет, называются деревьями решений (подсказка: откуда взялось название «лес»).

Случайные леса могут сочетать привлекательные свойства деревьев решений, включая устойчивость к выбросам и способность обрабатывать смешанные типы данных, при этом улучшая их нежелательные аспекты. Случайные леса менее подвержены переоснащению, и поэтому они, как правило, лучше обобщают и предсказывают с большей точностью.

Можем ли мы использовать какой-либо хак вместе с нашей моделью, чтобы снизить стоимость??

Регулировка порога!!!!!!!!!!!!

Наша метрика стоимости (10 * FP + 500 * FN). Если мы сможем уменьшить FN или FP, мы сможем снизить общую стоимость. Один из способов добиться этого путем настройки порогов, которые по умолчанию равны 0,5. Логика исходит из кривой ROC.

Мы можем видеть из кривой ROC, что после определенного порога Истинные срабатывания почти достигли максимального значения, а за его пределами TPR почти постоянен, в то время как FPR увеличивается. Поэтому вместо меток мы будем прогнозировать вероятности и изучать кривую AUC, которая поможет нам настроить порог для лучшего прогноза.

Случайный лес с настройкой порога

Минимальная стоимость, полученная с помощью Random Forest со скорректированными пороговыми значениями, составляет 7840 долларов США. Мы значительно улучшили наши прогнозы после корректировки пороговых значений . Вау!!

Теперь у нас есть работающий классификатор, который может сказать оператору автопарка, нужно ли обслуживать грузовик, основываясь исключительно на показаниях датчиков APS.

Будущая работа

  1. В настоящее время мы работали только с примерно 43 тысячами точек данных, что меньше, учитывая тот факт, что модели машинного обучения, как правило, работают лучше с большим количеством данных в целом.
  2. Мы могли бы попытаться лучше понять функции здесь, что было невозможно в настоящее время, поскольку единицы измерения для данных каждого датчика хранятся в тайне по служебным причинам. Мы могли бы придумать лучшие характеристики для классификации типов сбоев.

Итак, мы увидели применение машинного обучения в машиностроении. Мы вернемся с дополнительными примерами использования машинного обучения в машиностроении. !!!!!.Похлопайте этой статье и оставьте комментарий!

Спасибо, что прочитали

Прашант | https://github.com/Pc2301