Классификация — это тип задачи контролируемого машинного обучения, целью которой является прогнозирование класса или категории входного экземпляра на основе набора функций или атрибутов. В задаче классификации целевая переменная (то есть переменная, которую мы хотим предсказать) является категориальной, что означает, что она может принимать дискретный набор значений или меток.

Существует два основных типа задач классификации: бинарная классификация и многоклассовая классификация.

Двоичная классификация включает прогнозирование одного из двух возможных классов или меток, таких как «спам» или «не спам», «мошеннический» или «не мошеннический», «положительный» или «отрицательный». Целью бинарной классификации является изучение модели, которая может точно различать эти два класса на основе набора входных признаков.

С другой стороны, многоклассовая классификация включает прогнозирование одного из трех или более возможных классов или меток. Например, задача классификации нескольких классов может включать в себя предсказание вида растения на основе его характеристик, при этом возможными классами являются «роза», «маргаритка», «лилия» и т. д.

Мультиклассовую классификацию можно разделить на два подтипа: «исключительную» и «неисключительную». В исключительной многоклассовой классификации каждый экземпляр может принадлежать только к одному классу, тогда как в неисключительной многоклассовой классификации каждый экземпляр может принадлежать к нескольким классам одновременно.

Метрики

Существует несколько показателей, обычно используемых для оценки эффективности моделей классификации.

  1. Точность. Он измеряет долю правильных прогнозов, сделанных моделью, т. е. количество истинных положительных и истинных отрицательных результатов, деленное на общее количество экземпляров в наборе данных.
  2. Точность. Измеряет долю истинно положительных прогнозов (т. е. количество правильных положительных прогнозов) среди всех положительных прогнозов, сделанных моделью. Высокая точность означает, что модель делает мало ложноположительных прогнозов.
  3. Отзыв. Это измеряет долю истинных положительных прогнозов среди всех фактических положительных случаев в наборе данных. Высокий отзыв означает, что модель делает мало ложных отрицательных прогнозов.
  4. Оценка F1. Это гармоническое среднее точности и полноты, а также одно число, объединяющее обе метрики. Он часто используется в ситуациях, когда важны как точность, так и полнота.
  5. Площадь под кривой рабочей характеристики приемника (AUC-ROC): это показатель того, насколько хорошо модель может различать положительные и отрицательные экземпляры. Он отображает процент истинных положительных результатов (отзыв) по отношению к уровню ложных положительных результатов, а показатель AUC-ROC представляет собой площадь под этой кривой. Оценка 0,5 указывает на то, что модель не лучше случайной, а оценка 1 указывает на идеальную производительность.
  6. Матрица путаницы. Это таблица, в которой показано количество истинных положительных, истинных отрицательных, ложноположительных и ложноотрицательных результатов, сделанных моделью. Это полезный инструмент для визуализации производительности модели и определения областей для улучшения.

Подробнее о F1-Score

Оценка F1 является широко используемой метрикой для оценки эффективности моделей классификации. Это одно число, которое сочетает в себе точность и полноту — два ключевых показателя, используемых в задачах бинарной классификации.

Точность измеряет долю истинных положительных прогнозов (т. е. количество правильных положительных прогнозов) среди всех положительных прогнозов, сделанных моделью. Напомним, с другой стороны, измеряет долю истинных положительных прогнозов среди всех фактических положительных случаев в наборе данных.

Оценка F1 представляет собой гармоническое среднее точности и отзыва и рассчитывается следующим образом:

F1 score = 2 * (precision * recall) / (precision + recall)

Оценка F1 варьируется от 0 до 1, где оценка 1 указывает на идеальную точность и полноту, а оценка 0 указывает на то, что модель не смогла сделать никаких правильных положительных прогнозов.

Оценка F1 часто используется в ситуациях, когда важны как точность, так и полнота, поскольку она обеспечивает сбалансированное представление о производительности модели. Например, в медицинской диагностике важно иметь как высокую точность (чтобы свести к минимуму ложноположительные результаты), так и высокую полноту (чтобы свести к минимуму ложноотрицательные результаты).

Таким образом, оценка F1 представляет собой единое число, которое сочетает в себе точность и полноту и используется для оценки эффективности моделей бинарной классификации.

Оценка F1 для многоклассовых задач

При оценке эффективности моделей классификации с несколькими классами нам необходимо изменить показатель F1, чтобы учесть тот факт, что существует более двух классов. Есть несколько способов сделать это, в зависимости от того, как мы хотим взвешивать точность и полноту для разных классов.

  • Один из распространенных подходов состоит в том, чтобы рассчитать балл F1 для каждого класса отдельно, а затем взять среднее значение этих баллов, чтобы получить общий балл F1. Это называется «макроусредненной оценкой F1» и дает равный вес каждому классу, независимо от того, сколько экземпляров он имеет в наборе данных.
  • Другой подход состоит в том, чтобы рассчитать балл F1 для каждого класса отдельно, а затем взять средневзвешенное значение этих баллов на основе количества экземпляров в каждом классе. Это называется «взвешенной оценкой F1» и придает больший вес классам с большим количеством экземпляров, поскольку они оказывают большее влияние на общую производительность модели.
  • Существуют также другие варианты оценки F1, такие как «микроусредненная оценка F1» и «оценка выборок F1», которые используют разные подходы к сочетанию точности и полноты для нескольких классов.

Заключение

Классификация — это тип задачи контролируемого машинного обучения, целью которой является прогнозирование класса или категории входного экземпляра на основе набора функций или атрибутов. Существует два основных типа задач классификации: бинарная классификация и многоклассовая классификация, которая может быть исключающей или неисключающей. Для оценки эффективности моделей классификации обычно используются несколько показателей, включая точность, воспроизводимость, полноту, оценку F1, AUC-ROC и матрицу путаницы. Выбор подходящей метрики зависит от конкретных требований рассматриваемой проблемы.