Точность и полнота в науке о данных

Выбор метрик для улучшения корректности алгоритма.

Точность — это метрика для определения того, сколько наших прогнозов верны по отношению к размеру всего корпуса.

Точность — это метрика, представляющая правильные прогнозы по отношению к общему количеству сделанных нами прогнозов.

Полнота — это метрика для определения количества правильных прогнозов относительно общего количества случаев, которые мы хотим обнаружить в корпусе.

Все эти концепции обычно используются в проектах по науке о данных и машинном обучении для определения производительности алгоритма с точки зрения правильности. Если мы хотим использовать эти концепции, у нас должен быть идеальный базовый уровень для сравнения.

Пример
Давайте рассмотрим пример, чтобы лучше понять показатели точности, аккуратности и полноты, а также то, как мы их используем для оценки алгоритма.

Предположим, у нас есть тестовые данные из 1 00 000 записей, из которых 10 000 — положительные, а остальные — отрицательные, и у нас есть алгоритм для обнаружения положительных случаев. В общем, мы используем положительные и отрицательные падежи в разных контекстах. Допустим, вы хотите обнаружить глаголы в предложении, тогда положительные и отрицательные падежи могут быть определены как то, является ли слово глаголом или нет. Давайте придерживаться положительного и отрицательного для нашего примера здесь.

Предположим, наш алгоритм вернул 20 000 записей как положительные, из которых 9 500 действительно положительные, а остальные отрицательные.

Total entries:100,000
Positive Cases:10,000
Negative Cases:90,000
Total prediction count:20,000
+----------------+------------------------+-----------------------+
|   Case Types   |   Detected Positive    |   Detected Negative   |
+----------------+------------------------+-----------------------+
| Positive Cases | 9500(True Positive)    | 500(False Positive)   |
| Negative Cases | 10,500(False Negative) | 79,500(True Negative) |
+----------------+------------------------+-----------------------+

Начнем с точности. Точность означает, сколько наших прогнозов верны по отношению к общим данным. Из 10 000 положительных записей 9 500 обнаружены положительными, а остальные отрицательными. Для отрицательных случаев 79 500 записей определяются как отрицательные, а остальные — как положительные.

Accuracy => (9,500+79,500)/1,00,000=0.89 or 89%

Но одной точности недостаточно для оценки производительности, потому что мы хотим оценивать на основе как положительных прогнозов, так и ложноположительных прогнозов. Точность и полнота дают нам больше информации о том, как наш алгоритм работает в таких случаях.

Точность — это количество прогнозов, которые действительно положительны по отношению к сделанным нами прогнозам. Мы прогнозировали 20 000 записей, но только 9 500 действительно положительные.

Precision => 9,500/20,000 =47.5%

Отзыв — это количество действительно положительных прогнозов по отношению к общему количеству положительных записей в данных. Наши тестовые данные содержат 10 000 положительных записей, из которых мы обнаружили 9 500 записей.

Recall => 9,500/10,000=95%

Наконец, наши значения точности, прецизионности, отзыва составляют 89%, 47,5%, 95%.

Из этих значений мы можем сделать вывод, что нам все еще нужно работать над точностью, чтобы уменьшить количество ложноположительных случаев, поскольку это может быть фатальным в некоторых отраслях, таких как здравоохранение, торговля и т. д.

Спасибо, что терпели меня до конца. Это все на данный момент.

Надеюсь, вам понравилась статья.

Спасибо за чтение.

Точность и полнота в науке о данных

Вопросы по теме