Двоичные классификаторы - это общий класс алгоритмов машинного обучения, которые принимают входные данные и выводят две метки класса. Да / нет, классификация 1/0. Фактический алгоритм, используемый для классификации, может быть от простого линейного классификатора до гораздо более сложного.

Примером бинарного классификатора является популярная титаническая задача Kaggle о предсказании, выжил ли пассажир на Титанике или нет. Вы должны вывести метку класса либо 0 (умер), либо 1 (выжил). Найдите его здесь.

Угадывая, выжили люди в аварии или нет, мы можем получить четыре возможных результата.

  • Истинно-положительный (TP): правильный положительный прогноз: например, Мы правильно предсказываем, что пассажир выжил на титаническом корабле.
  • Ложноположительный (FP): неверный положительный прогноз: например, Мы неверно предсказываем, что пассажир выжил на титаническом корабле.
  • Истинно-отрицательный (TN): правильный отрицательный прогноз: мы правильно предсказываем, что пассажир погиб на титановом корабле.
  • Ложноотрицательный (FN): неверный отрицательный прогноз: мы неверно предсказываем смерть пассажира на титановом корабле.

Меры, выводимые из матрицы неточностей

Коэффициент ошибок (ERR): это общее количество ошибочных решений, деленное на размер набора данных, использованного при тестировании.

FP + FN / всего

Точность (ACC): общее количество правильных решений, деленное на размер набора данных, использованного при тестировании.

TP + TN / всего

Истинно положительная оценка: какова вероятность правильного ответа "да"?

TP/TP+FN

Частота ложных срабатываний. Если на самом деле нет, какова вероятность неправильного предсказания «нет», т.е. когда вы говорите «да», а не «нет»?

TN/TN+FP

Конкретность. Если на самом деле нет, какова вероятность неправильного прогноза?

TN/TN+FP

Точность: если да, какова вероятность правильного предсказания?

TP/FP+TP

Распространенность. Как часто условие "да" действительно встречается в нашей исходной тестовой выборке?

FN + TP / всего