Количественная оценка точности и достоверности прогнозов SoftMax для создания безопасных и надежных глубоких нейронных…

Методы глубокого обучения, такие как сверточные нейронные сети и рекуррентные нейронные сети, достигли высочайшего уровня производительности при решении широкого круга задач машинного обучения и становятся все более популярными.

Сегодня алгоритмы глубокого обучения могут изучать мощные представления, которые могут отображать многомерные данные в массив выходных данных. Однако эти сопоставления часто принимаются вслепую и считаются точными, что не всегда так.

Когда классификаторы машинного обучения используются в реальных задачах, они, как правило, терпят неудачу, если распределение обучения и тестирования различается. Хуже того, эти классификаторы часто молча терпят неудачу, предоставляя высоконадежные прогнозы, будучи при этом ужасно неверными. Неспособность классификаторов указать, когда они, вероятно, ошибаются, может ограничить их принятие или вызвать серьезные несчастные случаи. Например, модель медицинского диагноза может последовательно классифицировать с высокой степенью уверенности, даже если она должна отмечать трудные примеры для вмешательства человека. Полученные в результате неотмеченные ошибочные диагнозы могут заблокировать будущие технологии машинного обучения в медицине. В более общем плане и, что более важно, оценка того, когда модель ошибочна, имеет большое значение для безопасности AI. Эти предсказания с высокой степенью достоверности часто производятся с помощью softmax, потому что вероятности softmax вычисляются с помощью быстрорастущей экспоненциальной функции. Таким образом, незначительные дополнения к входам softmax, то есть логиты, могут привести к существенным изменениям в распределении выходных данных. Поскольку функция softmax является гладкой аппроксимацией индикаторной функции, для примеров вне распределения редко можно увидеть равномерное распределение.

Наше исследование показало, что вероятность предсказания из распределения softmax плохо соответствует достоверности. Это согласуется с большим количеством анекдотических свидетельств исследователей (Nguyen & O’Connor, 2015; Yu et al., 2010; Provost et al., 1998; Nguyen et al., 2015).

Чтобы продемонстрировать вышеупомянутые проблемы, мы обучили нейронную сеть на немецком тесте распознавания трафика (GTRSB). Нейронная сеть достигла 99% точности, что весьма впечатляет.

Поскольку мы знаем, что термин «точность» в нейронной сети выходит за рамки многих изображений, сколько раз предсказание softmax находило правильную метку, то есть истинно положительное. Таким образом, в приведенном выше случае точность 99% означает, что в 99% случаев результат прогноза был истинно положительным, то есть правильной меткой, и в 1% случаев softmax предсказывал ложное срабатывание.

Теперь еще один термин, который иногда люди смешивают с точностью, - это уровень уверенности для его прогнозов как для истинно положительной, так и для ложноположительной точности. Нейронная сеть предсказывает истинный положительный результат, а также дает уверенность в предсказании вероятности того, что этот класс находится внутри истинно положительного класса. Вероятность может быть от 0 до 1 и распределяется по всему классу. Используя argmax, мы выбираем самую высокую вероятность среди всей распределенной вероятности и класса, который имеет наибольшую вероятность того, что сеть классифицирует этот класс как истинно положительный. Так, например, значение вероятности 0,4 считается истинно положительным, если это значение является самым высоким среди всех вероятностей, и в этом отношении вероятность, равная 0,1, также считается истинно положительной, если эта вероятность является самой высокой среди всех рассчитанных вероятностей.

Стоит отметить, что вышеупомянутый случай также верен в случае ложного срабатывания. Ложноположительная уверенность в предсказании softmax также может быть близка к 1. Конечно, на этапе обучения у нас есть метки, и мы можем отбросить это высоконадежное предсказание как ложное. Но в реальном жизненном сценарии, когда нет метки, вывод нейронной сети будет неправильным выводом, а в худшем случае уверенность в предсказании неправильного вывода может быть чрезвычайно высокой !!!

Мы провели несколько экспериментов, чтобы увидеть, как меняется достоверность прогнозов при изменении яркости набора данных с использованием гамма-фактора. Ниже приведен образец или исходное изображение и наше изменение значения яркости на гамма-коэффициент 0,5.

Как можно заметить, правильный образ сложно интерпретировать даже человеку.

Теперь давайте посмотрим, как нейронная сеть построит доверительный прогноз с точки зрения вероятностей softmax для обоих изображений.

Уверенность нейронной сети в ее вероятности softamx на исходном изображении составляет 0,999, но самым удивительным моментом является то, что в случае изображения с увеличенной яркостью выход нейронной сети остается истинно положительным с уверенностью, что ее вероятность softmax составляет 0,992 !!! Разве это не случай чрезмерно уверенного предсказания? Другой случай, на этот раз с другим изображением.

Вероятность softamx нейронной сети на исходном изображении составляет 0,99, но на этот раз после показа изображения с увеличенной яркостью вывод нейронной сети является ложноположительным, но стоит отметить уверенность в ее неверном прогнозе, которая составляет 0,84 и удивительно довольно высока. В реальной жизни это неверное предсказание с такой степенью уверенности может иметь катастрофические последствия.

Это, конечно, неприемлемо, поскольку этот тип классификаторов не может указать, когда они, вероятно, ошибаются или когда они не уверены в своем прогнозе, может ограничить их принятие или вызвать серьезные аварии.

Любое приложение, управляемое существующей системой искусственного интеллекта с глубоким обучением на основе нейронных сетей, определенно не будет принято в любом секторе, где критические решения основаны на системе искусственного интеллекта.

Обычная практика обеспечения безопасности нейронной сети основана на удалении или установлении порога решения с низкой степенью достоверности, основанного на вероятности softmax. Например, любое значение вероятности менее 0,2 не будет учитываться.

Но здесь возникают две проблемы. Во-первых, в случае с высокой степенью уверенности в ложных срабатываниях эта жесткая установка пороговых значений не будет работать, а во втором случае излишние значения истинно положительных результатов с низкой «достоверностью» отбрасываются.

Это то, что заинтриговало исследователя AiOTA Labs. Вопрос, который мы задали себе

«Должны ли мы действительно верить в это чрезмерно уверенное предсказание, даже если оно действительно положительное?
Есть ли способ объяснить ложноположительный прогноз в реальном сценарии, когда метки недоступны?
Является ли вероятность предсказания из распределения softmax достоверностью нейронной сети, как это принято считать?
Есть ли лучший способ определить достоверность вероятности предсказания softmax? »

Если мы каким-то образом сможем ответить на этот вопрос, мы сможем сделать нейронную сеть более безопасной, надежной, и люди смогут доверять своим решениям. В настоящее время с экспериментальным результатом, показанным выше, мы не думаем, что нейронная сеть безопасна и надежна.

Вот что исследователь AiOTA Labs

На первом этапе вместо определения неинформированного определения порога грубой силы для всего распределения класса изображений мы нашли более информированный интеллектуальный способ определения порога для каждого класса изображений. Таким образом, если у нас есть 1000 классов, таких как в imagenet, или 43 класса, например, в наборе данных о дорожных знаках Германии (GTRSB), мы определим пороговое значение 1000 для каждого из 1000 классов изображений для изображения в imagenet, пороговое значение 43 для каждого из 43 классов изображений для GTRSB…

Используя нашу «запатентованную» технологию, мы находим это пороговое значение из распределения вероятностей каждого класса и, применяя теорему Байеса, можем найти интеллектуальное единственное значение для каждого класса. Это единичное значение для каждого класса теперь станет нашей оценкой достоверности для каждого класса набора обучающих данных и будет служить в качестве оценки достоверности золотой ссылки. Этот золотой эталонный показатель достоверности, как показано на рисунке ниже, рассчитывается на этапе обучения сети.

Как читатель, должно быть, заметил с нашей технологией, сеть глубокого обучения теперь будет иметь два выхода: 1) стандартная оценка вероятности Softmax и 2) значение мягкого порогового значения для каждого класса.

Во время логического вывода, когда новое изображение загружается в сеть глубокого обучения, выходные данные сети теперь будут иметь прогноз вероятности softmax и значение мягкого порога, связанное с этим классом изображения. Это мягкое пороговое значение для этого прогнозируемого класса будет сравниваться с оценкой золотого порога, уже рассчитанной для этого класса, и сохраняется в LUT системы, как показано на рисунке ниже. Если прогнозируемое пороговое значение ниже золотого эталонного значения, то можно безопасно полагаться на прогнозируемую достоверность вероятности softamx, а если сравнение выше золотого порогового значения, то небезопасно полагаться на прогнозируемую достоверность softmax для этого класса. и блок-схема показана на рисунке ниже.

Давайте рассмотрим реальный сценарий использования. Ниже приведен снимок загруженного городского движения.

Совершенно очевидно, что выделенный пост светофора будет сложно предугадать нейросетью. Сценарий ниже показывает, что произойдет, если в этом случае транспортное средство будет управляться автономно с существующим глубоким обучением на основе нейронной сети.

Поскольку в данном сценарии невозможно правильно классифицировать столб дорожного знака, решение, данное динамической системе автомобиля, состоит в том, чтобы поддерживать текущую скорость. Результат может привести к аварии. Принимая во внимание, что более человечный способ состоит в том, что я обнаружил что-то, что похоже на дорожный знак, но я не уверен, поэтому лучше снизить скорость, пока не разрешится неопределенность в моем прогнозе.

Наша новая топология нейронной сети привносит такой здравый смысл. Ниже показано, как будет вести себя топология нашей нейронной сети при интеграции во всю систему.

Возникает естественный вопрос.

Наше решение делает все это в реальном времени?
Может ли это решение модифицировать мое существующее решение?
Это решение является универсальным. Могу ли я использовать эту систему в других приложениях, таких как медицинская диагностика или прогнозирование стоимости акций.

Наше решение не влияет на базовую производительность на скорость вывода / принятия решений, и любое решение на основе нейронной сети может использовать наше решение поверх существующего. Это возможно дооснащение с минимальными изменениями. Это решение является универсальным и подходит для любых приложений, где на карту поставлена человеческая жизнь, будь то автомобильная промышленность, авиационная промышленность, медицинская промышленность…. или там, где на карту поставлены ваши прямые деньги, следует принять наше решение, которое сделает принятие решений нейронной сети безопасным, надежным и основанным на здравом смысле.

Наше решение готово к производству и протестировано на различных наборах данных, таких как Imagenet, CamVid и GTRSB.

Если вы хотите сделать свою систему искусственного интеллекта на основе глубокой нейронной сети безопасной и надежной, лаборатории AiOTA Labs предоставят вам универсальное решение.

Заинтересованы в демонстрации? Спросите об этом на

[email protected]

Мы будем рады услышать от вас.

Давайте сделаем мир, управляемый искусственным интеллектом, безопасным и надежным.

📝 Прочтите этот рассказ позже в Журнале.

🗞 Просыпайтесь каждое воскресенье утром и слышите самые интересные истории, мнения и новости недели, ожидающие в вашем почтовом ящике: Получите заслуживающий внимания информационный бюллетень›

Количественная оценка точности и достоверности прогнозов SoftMax для создания безопасных и надежных глубоких нейронных…

Вопросы по теме