Решение реальных задач науки о данных с помощью Python : классификация профилактического обслуживания

Привет от нового проекта по науке о данных в солнечную субботу. Как вы ? Надеюсь, с тобой все в порядке. На прошлой неделе мы сосредоточились на текущих проблемах во время разговора с моим консультантом Альпарсланом Месри, с которым мы давно работаем вместе и который очень помог мне войти в мир науки о данных.

После этого нам в голову пришел следующий вопрос: когда производственные столы, компьютеры, которые представляют собой приспособления, используемые для производства услуг или продуктов на фабрике или в любом другом бизнесе, переходят в состояние сбоя, насколько большие затраты они могут причинить бизнесу или фабрика? Или, с другой точки зрения, если бы мы знали заранее, когда производственные инструменты, используемые в организации, могут выйти из строя, насколько больших производственных затрат мы могли бы избежать для нашей организации?

В этой статье мы с моим консультантом сосредоточились на модели машинного обучения, которая классифицирует ошибку, которую может совершить машина, по типу ошибки и делает прогноз отказа машины.

Во время реализации этого исследования мы использовали несколько моделей машинного обучения в одном классе. В этом исследовании мы измерили прогностическую силу различных алгоритмов машинного обучения, которые мы использовали, взглянув только на значения оценки точности. В наших следующих исследованиях мы будем использовать наиболее точную модель, изучая другие показатели производительности (отзыв, RMSE, MSE, показатель AUC и т. д.) установленных алгоритмов.

Теперь мы можем перейти к нашему исследованию. Во время реализации этого исследования мы использовали несколько моделей машинного обучения в одном классе. В этом исследовании мы измерили прогностическую силу различных алгоритмов машинного обучения, которые мы использовали, взглянув только на значения оценки точности. В наших следующих исследованиях мы будем использовать наиболее точную модель, изучая другие показатели производительности установленных алгоритмов.

Теперь мы можем перейти к нашему исследованию. Сначала импортируем библиотеки, которые будут использоваться в исследовании:

После импорта библиотек мы импортируем набор данных для использования в исследовании:

Когда мы смотрим на наш набор данных, мы видим, что он состоит из различных столбцов. Я думаю, полезно объяснить столбцы в наборе данных:

Набор данных состоит из 10 000 строк и 14 различных столбцов.
UID: уникальный идентификатор в диапазоне от 1 до 10000
ProductID: состоит из букв L, M или H для низкого (50 % всех продуктов), среднего (30 %) и высокого (20 %) вариантов качества продукта и серийного номера для конкретного варианта.
Температура воздуха [K]: генерируется с использованием процесса случайного блуждания, позже нормализованного до стандартного отклонения 2 K около 300 K.
Температура процесса [K]: генерируется с использованием процесса случайного блуждания, нормализованного до стандартного отклонения 1 K, добавленного к температуре воздуха плюс 10 K.
Скорость вращения [об/мин]: Рассчитано из мощности 2860 Вт, наложенной на нормально распределенный шум.
Крутящий момент [Нм]: Значения крутящего момента обычно распределяются около 40 Нм с Ïƒ = 10 Нм и без отрицательных значений.
Износ инструмента [мин]: Варианты качества H/M/L добавляют 5/3/2 минут износа инструмента к используемому в процессе инструменту. и метка «сбой машины», которая указывает, является ли машина неисправной в этой конкретной точке данных для любого из следующих режимов отказа.

Еще один важный момент в наборе данных заключается в том, что есть 2 целевые переменные:

Цель: неудача или нет.
Тип отказа : Тип отказа

Поскольку принятие их в качестве любой переменной в модели прогнозирования может вызвать проблемы с производительностью модели, мы используем их обе в качестве зависимых переменных.

После объяснения переменных в нашем наборе данных мы создаем новую переменную, новый столбец, для использования в нашей модели. При создании этого столбца мы используем переменные "Общий износ" и "Крутящий момент". В то же время он удаляет переменные ID и ProductID в наборе данных из набор данных.

Теперь делаем визуализацию по целевой переменной в наборе данных:

Используя целевую переменную, мы получаем количество ошибок в соответствии с типами ошибок:

Теперь мы исследуем распределения других переменных в соответствии с целевой переменной, используя парный график:

Увидев распределение переменных по целевой переменной, мы используем тепловую карту, чтобы увидеть уровень взаимосвязи переменных друг с другом:

Увидев уровни корреляции и направления переменных друг с другом, давайте проследим изменчивость других числовых переменных в соответствии с целевой переменной с помощью boxplot:

После визуализации состояния целевой переменной по числовым переменным с различными графиками, выполняем процесс визуализации на общей оси по параметрам «Крутящий момент», «Вращательная мощность », переменные «Износ инструмента». Для этого 3D-графика ниже:

Предварительная обработка данных для моделей →

Мы выполнили наши визуализации в соответствии с переменными в нашем наборе данных. После завершения наших процессов исследовательского анализа данных мы выполняем процессы предварительной обработки данных, такие как кодирование нашего набора данных для алгоритмов машинного обучения:

Мы изменили столбец с текстовыми элементами на числовую переменную. Мы изменили столбец с текстовыми элементами на числовую переменную. Теперь мы разделяем наш набор данных на обучение и тестирование:

Мы также импортируем библиотеки машинного обучения, которые будем использовать в нашем исследовании. Далее мы создадим класс, который отображает оценку точности каждого алгоритма ML.

После библиотек, которые мы импортировали для алгоритмов машинного обучения, мы создаем класс и перечисляем оценку точности каждого алгоритма машинного обучения. Я также хотел бы добавить, что этот метод, в котором мы запускаем модели, которые будем использовать, компактно, создавая один класс, является методом, который может значительно облегчить работу специалиста по данным, и мы особенно рекомендуем его включаться в шаблоны, используемые в потоке проекта.

Мы подбираем используемые алгоритмы машинного обучения и показываем оценки точности в виде списка:

В списке мы можем увидеть количество попаданий различных алгоритмов машинного обучения. Ну вот мы и подошли к концу нашего исследования. В этом разделе нашего исследования мы сосредоточились на решении проблемы очень простым способом, написав класс, который содержит множество различных алгоритмов в эпизоде 1. Мы также получили оценки совпадений для различных алгоритмов машинного обучения. В нашем следующем исследовании, в эпизоде 2, который станет продолжением этого исследования, мы попытаемся сбалансировать набор данных и попробовать разные метрики, подходящие для задачи. Таким образом, как мы сказали в начале нашей статьи, мы конкретно измерим производительность алгоритма машинного обучения, который применим к бизнес-задаче.

Я надеюсь, что это был приятный сеанс чтения для вас. До встречи в следующей части нашего исследования.

Решение реальных задач науки о данных с помощью Python : классификация профилактического обслуживания —…

Предварительная обработка данных для моделей →

Вопросы по теме