Будучи энтузиастами машинного обучения и науки о данных, мы обязаны создать модель с точностью около процента (ха-ха!!!), что определенно невозможно для реальных случаев использования.

Модель с точностью от 80 до 95% считается хорошей моделью. Но добиться этого не так просто. Для анализа точности модели нам нужны матрицы путаницы. Взволнованный!!! узнать о Confusion Matrix? Посмотрим.

Что такое МАТРИЦА СМЕШАНИЙ?

Матрица путаницы — это табличный способ визуализации производительности вашей модели прогнозирования. Каждая запись в нем обозначает количество прогнозов, сделанных моделью, где она правильно или неправильно классифицировала классы.

Матрица сравнивает фактические целевые значения с предсказанными моделью машинного обучения.

Матрица путаницы для двоичной классификации.

Во-первых, давайте узнаем, что такое бинарная классификация.

Бинарная классификация относится к предсказанию одного из двух классов. Это означает набор данных, в котором возможны только 2 результата (скажем, «Истина» или «Ложь», «Пройдено» или «Не пройдено» и т. д.). Таким образом, либо результат правильный (т.е. Истина), либо неправильный (т.е. Ложь). Исход, который в нашу пользу, называется положительным, а неблагоприятный – отрицательным.

Матрица путаницы для двоичной классификации состоит из 4 терминов. 4 термина следующие:

  1. TP(True Positive):Модель правильно предсказала, что результат в нашу пользу.

2. TN(True Negative):модель правильно предсказала, что результат не в нашу пользу.

3. FP (ложноположительный результат, также известный как ошибка 1-го типа): модель предсказала, что результат будет в нашу пользу, но на самом деле это не так.

4. FP (False Negative a.k.a. Type 2 Error): Модель предсказала, что результат будет не в нашу пользу, но реальность такова.

Давайте разберем эти термины на примере.

Допустим, есть поставщик веб-служб, который применяет (развертывает) детектор для анализа того, безопасен ли клиент или нет. Здесь модель предоставит 2 результата: «Безопасный» и «Небезопасный».

Наш результат считается Истинно положительным, если прогноз, сделанный нашей моделью, является «Безопасным», и на самом деле клиент «Безопасный». И на этом поставщик услуг предсказания получает прибыль. Так что это на самом деле в нашу пользу.

Наш результат считается Верно отрицательным, если прогноз, сделанный нашей моделью, «Небезопасен» и на самом деле клиент «Небезопасен», и, таким образом, этот прогноз спасает поставщика услуг от взлома.

Теперь идут интересные термины матрицы путаницы, 2 ошибки (FP и FN).

Допустим, наша модель предсказала, что клиент «небезопасен» для сервера, но фактический результат — «безопасен». Итак, в этом случае наш прогноз модели неверен (False). И поставщик услуг не получил никакой прибыли, следовательно, это не в нашу пользу, и поэтому это считается ложноотрицательным (ошибка типа 2).

Теперь предположим, что модель предсказала, что клиент «безопасен» для сервера, а поставщик услуг разрешает клиенту доступ к веб-страницам. Но фактический результат — «Небезопасно». Поскольку этот клиент небезопасен и, таким образом, он может взломать сервер и выполнить некоторые вредоносные действия внутри своего сервера. Таким образом, это может оказаться очень вредным для поставщика услуг. Это считается ложным срабатыванием (ошибка типа 1).

Вот почему ложное срабатывание (ошибка типа 1) в матрице путаницы может нанести серьезный ущерб поставщику услуг. Хотя они все еще могут иметь ложноотрицательный результат (ошибка типа 2).

Следовательно, ошибка типа 1 в матрице путаницы очень опасна, и она должна иметь нулевой допуск. И вот как матрица путаницы помогает обнаружить, что если модель дает какие-либо ложные положительные прогнозы.

Я надеюсь, что вы узнали что-то новое о матрице путаницы, прочитав эту статью, и вы поняли все это.