Визуальное понимание метрик машинного обучения

Важно понимать точность и полноту, чтобы принимать бизнес-решения для классификации с использованием машинного обучения. Классификация говорит, является ли что-то чем-то другим: скажем, является ли изображение кусочком пиццы. Напротив, регрессия предсказывает некоторое число, например цену дома.

Точность и полнота связаны с количественными результатами для классификации, которая преобразуется в бизнес-модели. Нет необходимости понимать, как на самом деле работает машинное обучение.

Любой, кто касается бизнес-модели, включающей машинное обучение, должен понимать эти показатели. Учредители, руководство, развитие бизнеса и инвесторы включены.

Для лица, принимающего решения, важно предоставить команде специалистов по обработке и анализу данных подходящую метрику для бизнес-модели. И я надеюсь показать вам, что любой, кто умеет считать, может понять, какую метрику использовать.

Скажем, вы хотите поймать мошенников.

  • Как часто вы правы, когда говорите о мошенничестве?
  • Сколько случаев мошенничества вы упускаете?

Ответы на подобные вопросы питают бизнес-модель. Точность и отзыв — два соответствующих ответа.

Эта статья призвана дать интуитивное представление об этих важных показателях. И интуиция часто работает лучше всего, когда мы можем поместить образ в понятие. Итак, давайте рассмотрим наглядный пример: сколько кусочков пиццы на картинке ниже?

Теперь предположим, что мы обучили сверточную нейронную сеть (CNN) распознавать пиццу на изображениях. Я ничего не скажу вам о том, как это работает, и это нормально! CNN возвращается с такими результатами:

Модель предсказала 5 кусков пиццы. Он правильно пометил 3 куска пиццы и неправильно пометил 2 куска пирога как пиццу. Он полностью пропустил 1 кусок пиццы. Просмотрите изображение, пока не увидите, где совпадают все четыре числа.

Давайте теперь рассмотрим некоторую терминологию, чтобы глубже погрузиться в то, насколько хорошо работала модель. Точность и полнота говорят нам, какие прогнозы мы получаем из модели классификации. В случае подсчета пиццы такие прогнозы:

  • Истинный позитив: модель предсказывает пиццу, и это пицца
  • Ложное срабатывание: модель предсказывает пиццу, а это не пицца
  • Ложноотрицательный результат: модель предсказывает не пиццу, а пиццу
  • True Negative: Модель предсказывает не пиццу, и это не пицца

Или мы можем показать такие прогнозы с помощью смайликов! (Примечание: эмодзи пирога технически означает все, что не является пиццей.)

CNN правильно предсказал, что 3 куска пиццы были пиццей, поэтому есть 3 истинных срабатывания. Он неправильно предсказал 2 кусочка пиццы, которые на самом деле были пирогом, поэтому есть 2 ложных срабатывания. И он пропустил 1 кусок пиццы, так что есть 1 ложноотрицательный результат.

  • Истинные положительные результаты = 3
  • Ложные срабатывания = 2
  • Ложноотрицательные = 1

Давайте теперь начнем выяснять, насколько хороша модель. Точность измеряет правильность. Здесь правильность означает:

Когда модель говорит «пицца», как часто это правильно?

Теперь давайте введем формулу для точности:

Или более наглядно (и вкусно):

Таким образом, точность равна 3/(3 + 2) = 0,6. Это означает, что когда модель предсказывает, что что-то является пиццей, это верно в 60% случаев. В остальных 40% случаев он неправильно предсказывал пиццу, хотя на самом деле это был пирог.

С другой стороны, припоминание измеряет полноту. Под полнотой здесь понимается:

Сколько кусочков из всей настоящей пиццы поймала модель?

Теперь давайте введем формулу для отзыва:

Или более наглядно:

Таким образом, отзыв равен 3 / (3 + 1) = 0,75. Это означает, что из всей реальной пиццы модель поймала 75% всех кусочков пиццы. Он пропустил 25% всех кусочков пиццы, то есть один кусок в правом нижнем углу изображения.

Теперь у нас остается естественный вопрос: какая метрика важнее для бизнес-решений? Ответ, который все ненавидят, потому что он так верен: это зависит.

И самое интересное, что точность и полнота напрямую конкурируют друг с другом. По мере того, как точность становится лучше, память имеет тенденцию ухудшаться. И по мере того, как память становится лучше, точность имеет тенденцию ухудшаться.

Поэтому, если мы хотим, чтобы модель никогда не говорила, что пирог — это пицца (точность 100 %), она пропустит большее количество кусочков пиццы (меньше отзывов). Это часто происходит в бизнес-среде, где неверное решение имеет значительную цену. Девиз точности:

Лучше пропустить событие, чем действовать в связи с плохим событием.

И если мы хотим, чтобы модель поймала каждый кусок пиццы (100% полнота), она будет догадываться, что пиццей является большее количество пирогов (с меньшей точностью). Это часто происходит в бизнес-среде, где пропущенное событие влечет за собой значительные затраты. Девиз отзыва:

Лучше уловить все события и иногда ошибаться, чем всегда быть правым.

Бонус: больше общих показателей

Другой распространенной метрикой является старая добрая точность. Будьте осторожны: эта метрика может вводить в заблуждение. Хотя обычно он используется реже, бывают случаи, когда использование точности оправдано. Если специалист по данным говорит, что модель достигла точности 99%, спросите, что это на самом деле означает.

В конце концов, рассмотрим случай, когда 1% онлайн-активности составляет мошенничество. Модель классификации, которая всегда предсказывает «отсутствие мошенничества», будет иметь точность 99%. Однако такая модель никогда не выявит случаев мошенничества (точность и полнота 0%).

Давайте теперь рассмотрим случай, когда мы в равной степени заботимся о точности и отзыве. Мы хотим, чтобы модель была одновременно очень корректной и полной (на практике это может быть довольно сложно). Мы можем ввести еще один показатель, который называется оценка F1.

Оценка F1 создает сбалансированную оценку между точностью и отзывом. По сути, он уравновешивает точность и полноту, находя значение между ними, всегда склоняясь в большей степени к более низкому значению. Показатель F1 классификатора пиццы составил 67%, от 60% точности до 75% отзыва.

В большинстве случаев желательна оценка F1, чтобы убедиться, что у нас хорошая точность и хороший отзыв. В некоторых случаях это может не понадобиться. Получение как высокой точности, так и высокой полноты требует больше времени, ресурсов и денег. Только высокая точность или высокая полнота могут работать для бизнес-модели с меньшими затратами.

Выводы

Люди, разрабатывающие бизнес-модели, должны определить, когда какую метрику использовать.

Вам не нужно быть специалистом по данным, чтобы понять, какую метрику использовать. Это просто включает в себя ответ на следующий вопрос:

Какие результаты машинного обучения позволят моему бизнесу процветать?

Метрики предоставляют количественные результаты, которые определяют бизнес-модели. Точность, полнота и оценка F1 образуют прочную основу для понимания результатов модели классификации.

Надеюсь, я показал вам, что любой, кто умеет считать, может понять показатели машинного обучения. Вот некоторые моменты, которые, я надеюсь, вы сможете почерпнуть из этой статьи:

  • Метрики = топливо для бизнес-модели
  • Точность = правильность
  • Напомним = полнота
  • F1-оценка = сбалансированная оценка
  • Точность = потенциально вводящая в заблуждение
  • Пицца = вкусно