Оценка и выбор модели в ML

Точность рассчитывается следующим образом:

Точность = количество правильных прогнозов/общее количество экземпляров

Положительный и отрицательный класс имеют четыре возможных исхода

True Negative (TN): если истинная метка для экземпляра является отрицательной, классификатор может предсказать либо отрицательное значение, что является правильным, и назвать истинное отрицательное значение.
Ложный положительный результат (FP): если классификатор может ошибочно предсказать положительный результат, что является ошибкой и называется ложным положительным результатом.
Ложноотрицательный (FN): если истинная метка для экземпляра положительна, классификатор может предсказать любой отрицательный результат, что является ошибкой и называется ложноотрицательным.
True Positive (TP): если истинная метка для экземпляра положительна, классификатор может предсказать положительный результат, называемый True Positive.

Примечание. Ложноположительный результат также известен как ошибка первого типа, тогда как ложноотрицательный результат известен как ошибка второго типа.

Матрица путаницы. Матрица всех комбинаций предсказанной метки и истинной метки называется матрицей путаницы.

Точность. Успешное предсказание классификатора, в котором предсказанный класс соответствует истинному классу по диагонали матрицы путаницы, рассчитывается следующим образом:

Точность = TN+TP/TN+TP+FN+FP

Отзыв.Отзыв также известен как доля истинно положительных результатов, чувствительность или вероятность обнаружения, которая рассчитывается следующим образом:

Отзыв = TP/TP+FN

Точность. Точность — это показатель оценки, отражающий ситуацию и полученный путем деления количества истинных положительных результатов на сумму истинных положительных и ложных положительных результатов.

Точность: TP/TP+FP

Примечание. Чтобы повысить точность, мы должны либо увеличить количество истинных положительных результатов, предсказываемых классификатором, либо отрицательных экземпляров в положительном классе.

Коэффициент ложноположительных результатов (FPR): также известный как специфичность, которая рассчитывается следующим образом:

FPR = FP/TN+FP

Оценка F1: сочетание точности и полноты в одном числе.

Оценка F1: 2*(точность*отзыв/ точность+отзыв)

Оценка F1 = 2*TP/2*TP+FN+FP

Функция принятия решения

Методы функции принятия решений предоставляют значение оценки для каждого классификатора, которое указывает, насколько уверенно классификатор предсказывает положительный класс, так что будут положительные оценки большой величины для положительных баллов и такие же для отрицательных классов.

Мультиклассовая оценка

В мультиклассе оценка классификатора рассчитывается путем оценки средней макро- и микро-средней точности и отзыва.

Регрессионная оценка

В большинстве случаев по умолчанию оценка r2, доступная для регрессии и обучения scikit, обобщает, насколько хорошо будут предсказаны будущие экземпляры. Оценка r2 для идеального предиктора равна 1.

Выбор модели: оптимизация классификаторов для различных показателей оценки

Выбор модели — это процесс выбора наилучшей модели из набора моделей-кандидатов. В контексте классификаторов выбор модели включает в себя выбор лучшего классификатора для конкретной проблемы с учетом показателей оценки, используемых для измерения производительности.

Метрики оценки используются для количественной оценки производительности классификатора. Общие метрики оценки для задач классификации включают точность, прецизионность, полноту, F1-оценку и площадь под кривой рабочих характеристик приемника (ROC).

При выборе классификатора важно учитывать компромисс между различными показателями оценки. Например, некоторые классификаторы могут иметь высокую точность, но низкую точность, а это означает, что они делают много ложноположительных прогнозов. Другие классификаторы могут иметь низкую точность, но высокую точность, что означает, что они делают меньше ложноположительных прогнозов, но могут пропускать много истинно положительных случаев.

Выбор метрики оценки зависит от конкретной проблемы и требований приложения. Например, в медицинской диагностике может быть предпочтительнее высокоточный классификатор, поскольку ложноположительные прогнозы могут иметь серьезные последствия. Напротив, в спам-фильтре может быть предпочтительным классификатор с высоким отзывом, поскольку ложноотрицательные прогнозы (т. е. законные электронные письма классифицируются как спам) могут быть более приемлемыми, чем ложноположительные прогнозы (т. е. спамовые электронные письма классифицируются как законные).

Таким образом, выбор модели для классификаторов является важным шагом в процессе машинного обучения и требует тщательного рассмотрения показателей оценки, используемых для измерения производительности.

Спасибо за чтение :)

Дополнительные материалы на PlainEnglish.io. Подпишитесь на нашу бесплатную еженедельную рассылку новостей. Подпишитесь на нас в Twitter, LinkedIn, YouTube и Discord .

Заинтересованы в масштабировании запуска вашего программного обеспечения? Ознакомьтесь с разделом Схема.

Оценка и выбор модели в ML

Функция принятия решения

Мультиклассовая оценка

Регрессионная оценка

Выбор модели: оптимизация классификаторов для различных показателей оценки

Вопросы по теме