Битва машинного обучения с загадкой Резникова.

Если бы существовала премия за честность в анализе надежности, ее следовало бы присудить Говарду Л. Резникоффу. Его расширенная статья «Математические аспекты технического обслуживания, ориентированного на надежность», опубликованная в 1978 году, является своего рода дополнением к легендарной работе Стэнли Ноулана и Говарда Хипа «Техническое обслуживание, ориентированное на надежность». Резникофф говорит об этом в своем предисловии еще до того, как начинает основные разделы.

Одним из наиболее важных вкладов программы техобслуживания, ориентированного на надежность, является явное признание того, что определенные типы информации, которые до сих пор активно запрашивались в результате деятельности по техобслуживанию, как в принципе, так и на практике недоступны.

После шести глав, посвященных статистике распределений выживаемости, коэффициентов опасности, умозаключений, теоремы Байеса и моделированию надежности системы, можно ожидать, что в заключение он подчеркнет, насколько важен тщательный статистический анализ для принятия решений RCM. Не Х. Л. Резникофф. Вместо этого он говорит о доступности данных в реальном мире.

Чем эффективнее [существующая программа обслуживания], тем меньше критических сбоев будет происходить и, соответственно, меньше информации об операционных сбоях будет доступно разработчику политики обслуживания.

То, что оптимальная политика должна быть разработана в отсутствие информации о критических отказах, с использованием только результатов тестирования компонентов и предыдущего опыта работы с родственными, но разными сложными системами, является явно парадоксальной ситуацией.

Более того, применимость статистических теорий надежности к очень небольшим группам крупномасштабных сложных систем, обычно встречающихся на практике, сомнительна и требует некоторого обсуждения. Каждая из этих различных точек зрения приводит к выводу, что разработка политики технического обслуживания обязательно проводится с крайне ограниченной информацией сомнительной воспроизводимости, и мы должны рассмотреть, почему это все же возможно и как это можно сделать».

Другими словами: «Вы можете думать, что у вас есть полезная информация, но у вас ее нет и вы, вероятно, не можете ее получить».

Загадка Резникоффа напрямую связана с тем, как работает машинное обучение. Когда люди впервые знакомятся с реальной системой машинного обучения (ML), они часто разочаровываются. Мы были. Реакция многих людей с любым статистическим образованием примерно такая: «О, так это просто создает причудливую корреляционную матрицу?» И это действительно все, что делает большинство машинного обучения: он ищет корреляции в данных и выражает их в виде ряда функций.

Те, кто продает инструменты искусственного интеллекта, часто не уделяют особого внимания тому, как выявляются корреляции; возможно, это добавляет таинственности или волшебства, чтобы скрыть эту часть. Тем не менее, это очень важно для типов данных, с которыми мы имеем дело, и типов результатов, которые мы хотели бы получить в мире физических активов.

Общий используемый метод заключается в предоставлении сети обучающего набора данных. Обучающие данные содержат ряд входных данных различных типов. В промышленности это может быть что угодно: показания датчиков, часы работы, температура, погода, какая смена работает, данные о событиях ERP, абсолютно все, что доступно. Некоторые параметры окажутся неактуальными; мы надеемся, что по крайней мере некоторые из них определяют результат. Каждая запись в наборе обучающих данных также содержит выходные данные. Он должен. Затем система ML определяет корреляцию между входными данными, которые мы представляем, и полученными выходными данными (пройдено/не пройдено, не пройдено/нормально, вероятность неудачи, какой бы она ни была). Таким образом, выходные данные должны присутствовать для каждой записи в наборе обучающих данных.

Если обучающие входные данные для алгоритма ML должны содержать как входные данные, так и известные выходные данные, из этого следует, что для прогнозирования сбоев у нас должны быть как входные данные, так и записи об ошибках. Вот тут-то и появляется Резникофф. У нас будет много неудач, которые не имеют значения, но очень мало записей о неудачах, которые имеют значение. Таким образом, наш набор данных для обучения будет либо пустым, либо слишком разреженным, чтобы быть полезным, если мы не сможем агрегировать данные от тысяч пользователей, и потребуется время (месяцы, годы или больше), чтобы получить необходимые данные.

Будет много данных о сбоях и потенциальных сбоях, которые не имеют большого значения. Это отказы, которые не были бы большой проблемой, если бы они произошли: никаких последствий для безопасности или окружающей среды, незначительное влияние на эксплуатацию и так далее. Будет очень мало данных о сбоях, которые действительно имеют значение, потому что мы очень стараемся предотвратить их с помощью обслуживания и хорошего дизайна. Машинному обучению требуется множество примеров для обучения, и не так уж много примеров имеют значение.

К счастью, мы можем решить эту вполне реальную проблему, и ответ лежит не только в науке о данных, но и в RCM… со стероидами!

Об авторах:

Кеннет и Марк объединили свои усилия в RELMAR, чтобы перевести глобальную морскую промышленность и отрасль разведки нефти и газа (разведка, разведка и переработка) из операционной в стратегическую с помощью уникальной платформы MRCM ™, специально разработанной для этих отраслей, но обладающей возможностями для быстрого развертывания в глобальных ресурсоемких отраслях.

контакт: [email protected] | [email protected]

Битва машинного обучения с загадкой Резникова.

Вопросы по теме