Двоичные классификаторы - это общий класс алгоритмов машинного обучения, которые принимают входные данные и выводят две метки класса. Да / нет, классификация 1/0. Фактический алгоритм, используемый для классификации, может быть от простого линейного классификатора до гораздо более сложного.
Примером бинарного классификатора является популярная титаническая задача Kaggle о предсказании, выжил ли пассажир на Титанике или нет. Вы должны вывести метку класса либо 0 (умер), либо 1 (выжил). Найдите его здесь.
Угадывая, выжили люди в аварии или нет, мы можем получить четыре возможных результата.
- Истинно-положительный (TP): правильный положительный прогноз: например, Мы правильно предсказываем, что пассажир выжил на титаническом корабле.
- Ложноположительный (FP): неверный положительный прогноз: например, Мы неверно предсказываем, что пассажир выжил на титаническом корабле.
- Истинно-отрицательный (TN): правильный отрицательный прогноз: мы правильно предсказываем, что пассажир погиб на титановом корабле.
- Ложноотрицательный (FN): неверный отрицательный прогноз: мы неверно предсказываем смерть пассажира на титановом корабле.
Меры, выводимые из матрицы неточностей
Коэффициент ошибок (ERR): это общее количество ошибочных решений, деленное на размер набора данных, использованного при тестировании.
FP + FN / всего
Точность (ACC): общее количество правильных решений, деленное на размер набора данных, использованного при тестировании.
TP + TN / всего
Истинно положительная оценка: какова вероятность правильного ответа "да"?
TP/TP+FN
Частота ложных срабатываний. Если на самом деле нет, какова вероятность неправильного предсказания «нет», т.е. когда вы говорите «да», а не «нет»?
TN/TN+FP
Конкретность. Если на самом деле нет, какова вероятность неправильного прогноза?
TN/TN+FP
Точность: если да, какова вероятность правильного предсказания?
TP/FP+TP
Распространенность. Как часто условие "да" действительно встречается в нашей исходной тестовой выборке?
FN + TP / всего