Выбор метрик для улучшения корректности алгоритма.
Точность — это метрика для определения того, сколько наших прогнозов верны по отношению к размеру всего корпуса.
Точность — это метрика, представляющая правильные прогнозы по отношению к общему количеству сделанных нами прогнозов.
Полнота — это метрика для определения количества правильных прогнозов относительно общего количества случаев, которые мы хотим обнаружить в корпусе.
Все эти концепции обычно используются в проектах по науке о данных и машинном обучении для определения производительности алгоритма с точки зрения правильности. Если мы хотим использовать эти концепции, у нас должен быть идеальный базовый уровень для сравнения.
Пример
Давайте рассмотрим пример, чтобы лучше понять показатели точности, аккуратности и полноты, а также то, как мы их используем для оценки алгоритма.
Предположим, у нас есть тестовые данные из 1 00 000 записей, из которых 10 000 — положительные, а остальные — отрицательные, и у нас есть алгоритм для обнаружения положительных случаев. В общем, мы используем положительные и отрицательные падежи в разных контекстах. Допустим, вы хотите обнаружить глаголы в предложении, тогда положительные и отрицательные падежи могут быть определены как то, является ли слово глаголом или нет. Давайте придерживаться положительного и отрицательного для нашего примера здесь.
Предположим, наш алгоритм вернул 20 000 записей как положительные, из которых 9 500 действительно положительные, а остальные отрицательные.
Total entries:100,000 Positive Cases:10,000 Negative Cases:90,000 Total prediction count:20,000 +----------------+------------------------+-----------------------+ | Case Types | Detected Positive | Detected Negative | +----------------+------------------------+-----------------------+ | Positive Cases | 9500(True Positive) | 500(False Positive) | | Negative Cases | 10,500(False Negative) | 79,500(True Negative) | +----------------+------------------------+-----------------------+
Начнем с точности. Точность означает, сколько наших прогнозов верны по отношению к общим данным. Из 10 000 положительных записей 9 500 обнаружены положительными, а остальные отрицательными. Для отрицательных случаев 79 500 записей определяются как отрицательные, а остальные — как положительные.
Accuracy => (9,500+79,500)/1,00,000=0.89 or 89%
Но одной точности недостаточно для оценки производительности, потому что мы хотим оценивать на основе как положительных прогнозов, так и ложноположительных прогнозов. Точность и полнота дают нам больше информации о том, как наш алгоритм работает в таких случаях.
Точность — это количество прогнозов, которые действительно положительны по отношению к сделанным нами прогнозам. Мы прогнозировали 20 000 записей, но только 9 500 действительно положительные.
Precision => 9,500/20,000 =47.5%
Отзыв — это количество действительно положительных прогнозов по отношению к общему количеству положительных записей в данных. Наши тестовые данные содержат 10 000 положительных записей, из которых мы обнаружили 9 500 записей.
Recall => 9,500/10,000=95%
Наконец, наши значения точности, прецизионности, отзыва составляют 89%, 47,5%, 95%.
Из этих значений мы можем сделать вывод, что нам все еще нужно работать над точностью, чтобы уменьшить количество ложноположительных случаев, поскольку это может быть фатальным в некоторых отраслях, таких как здравоохранение, торговля и т. д.
Спасибо, что терпели меня до конца. Это все на данный момент.
Надеюсь, вам понравилась статья.
Спасибо за чтение.