Есть множество проблем, которые можно решить с помощью машинного обучения, классификация — одна из самых распространенных проблем. Определенно стоит изучить эту проблему и соответствующие решения, если вы хотите освоить машинное обучение.

В этой главе я хотел бы написать положительный и отрицательный класс машинного обучения, который можно использовать для задачи классификации.

Пожалуйста, внимательно прочитайте историю и давайте начнем.

Чтобы упростить понимание, давайте рассмотрим следующее определение:

  • Волк — положительный класс
  • Ни один волк не является отрицательным классом

  • True Positive (TP): это результат, который мы получаем, если правильно предсказываем положительный класс
  • Ложный положительный результат (FP): это результат, который мы получаем, если мы предсказываем отрицательный класс как положительный класс.
  • True Negative (TN): это результат, который мы получаем, если правильно предсказываем отрицательный класс
  • Ложноотрицательный (FN): это результат, который мы получаем, если мы предсказываем положительный класс как отрицательный класс.

Точность — это метрика предсказания, которую наша модель получила для предсказания правильных результатов. Точность можно сформулировать следующим образом:

Это значит,

Предположим, у нас есть модель опухолевой системы, которая предсказала 100 данных со следующим результатом:

  • ТП: 3(Злокачественный)
  • TN: 88 (доброкачественный)
  • FP: 1 (Ошибочно предсказать доброкачественное как злокачественное)
  • FN: 8 (Ошибочно предсказать злокачественное как доброкачественное)

Это значит,

Точность = (3+88)/(3+88+1+8) = 91/100 = 0,91

Наша модель получила точность 91%, это довольно приличная точность. Но у нас тут огромная проблема. Окончательный результат модели: 88/89 доброкачественных опухолей (88TN-1FP) и 3/11 злокачественных опухолей (3TP-8FN).

Модель может правильно предсказать только 3 из 11 злокачественных опухолей. Таким образом, частота ошибок составляет ± 8/11 или 72%. Это может произойти из-за наборов данных дисбаланса классов.

В заключение, мы не можем просто доверять точности нашей модели, потому что она дает довольно приличную производительность. Вместо этого нам нужно проанализировать его более глубоко, чтобы понять, что именно происходит. Очевидно, нам нужны другие метрики, с которыми можно работать лучше, а именно точность и полнота. Я подытожу его позже в следующей главе.