Если вы когда-нибудь заглядывали через плечо исследователя данных за работой, вы могли видеть эти графики на их компьютере:

но в основном это.

Поскольку они ждут завершения своих SQL-запросов.

В этой статье мы объясним, что на самом деле представляет этот график.

Давайте посмотрим на этот график более внимательно.

Это называется кривой ROC и означает Рабочая характеристика приемника.

Я знаю, что большинство людей на самом деле не знают, что это значит, но это нормально.

По оси X отложен коэффициент ложноположительных результатов, а по оси Y — коэффициент истинно положительных результатов, поэтому, чтобы понять эту кривую, мы сначала имеем чтобы понять, что означают эти показатели, и прежде чем мы поймем эти показатели, мы должны понять, что означает ложноположительный результат.

Когда вы пытаетесь предсказать ответ «да» или «нет», могут возникнуть четыре ситуации, которые представлены каждым из этих квадратов.

Мы впервые увидели термин «ложноположительный результат». Это ситуация, когда вы думали, что что-то было правдой, но на самом деле это было ложью.

Чтобы объяснить это, вот Suraj, The Cupcake Predictor. Он робот, и его работа — посмотреть на изображение и сказать, кекс это или нет.

Вот первое изображение.

Так что это было ложное срабатывание, потому что он подумал: «Да, это был кекс, он же положительный, но он был неправ, он же ложный». Отсюда и ложное срабатывание.

Давайте попробуем другой. Вот второе изображение.

Так что это был Истинно Положительный, потому что он подумал: «Да, это был кекс», он же Позитивный, и он также был прав в этом, он же Истинный. Следовательно, «Истинно положительный».

Давайте сделаем еще несколько, чтобы убедиться, что мы поняли. Вот третье изображение.

Это был кекс, при увеличении четко видно, что это кекс. Следовательно, это был ложноотрицательный результат, потому что он подумал: «Нет, это был не кекс», то есть отрицательный, но он был неверным, то есть ложным. В результате False Negative.

Вот последнее изображение.

Отличный! Это был True Negative, потому что он подумал: «Нет, это был не кекс», то есть отрицательно, и он был прав в этом, то есть правда. Таким образом, True Negative.

Ладно, вернемся к кривой.

Что тогда означает эта кривая?

Прежде чем предложить ему угадать, является ли изображение кексом, вы можете сказать ему, чтобы он играл осторожно или агрессивно.

Эта кривая на самом деле показывает, насколько хороша ваша прогностическая модель, но почему это кривая?

Вернемся к Сураджу, предсказателю капкейков.

Прежде чем предложить ему угадать, является ли изображение кексом, вы можете сказать ему, чтобы он играл осторожно или агрессивно.

Вот что на самом деле происходит в его мозгу, когда вы показываете ему чашку с пирожным.

Так вот что он думает, но что, если его менеджер сказал ему?

«Эй, Сурадж, будь осторожен. Я не хочу, чтобы люди возвращались с пищевым отравлением из-за того, что съели что-то, кроме кекса, это нанесет ущерб нашей репутации, и мы обанкротимся».

Сурадж скажет:

Таким образом, эта стратегия будет зеленой точкой на этой кривой, которую он оптимизирует для снижения показателя ложных срабатываний за счет нашего показателя истинного срабатывания. В основном мы хотим иметь высокую точность.

Но однажды у нас появился новый менеджер, и этот новый менеджер сказал ему: «Эй, просто дай мне столько кексов, сколько сможешь, даже если это не кекс. Мне все равно, к черту клиента, я просто хочу заработать».

Сурадж скажет:

Так что эта стратегия будет похожа на красную точку на этой кривой.

Он пытается увеличить свой истинно положительный показатель, а также увеличить свой ложноположительный показатель.

Возвращаясь к графику, всякий раз, когда у вас есть бинарный классификатор, который пытается предсказать ответ «да» или «нет», вам захочется посмотреть на эту кривую.

Как вы думаете, как будет выглядеть хорошая модель? Это будет выглядеть так.

Почему? Потому что, даже если у вас небольшой процент ложноположительных результатов, у вас уже есть высокий процент истинных положительных результатов, поэтому, даже если у вас высокая планка коллов, которая является настоящим кексом, вы все равно можете коллировать. Вы все еще успешно идентифицируете большую часть настоящего кекса.

В отличие от этой кривой, если вы хотите перестраховаться, вы, вероятно, пропустите много настоящих кексов, потому что истинный положительный показатель очень низок.

Так что визуально сложно сказать: «Эй, вот как работает моя модель, посмотрите на эту кривую», поэтому мы сделали еще одну метрику под названием AUC.

Область под кривой

которые представляют эту область, и чем выше число, тем лучше, так что вот оно.

Ну, ребята, пока все!

Если вам понравилась эта статья, поаплодируйте мне, подпишитесь на меня и поделитесь ею с друзьями. И иди побалуй себя вкусным кексом — ведь давайте будем реалистами, кто не любит хороший кекс?