1. вступление
  2. Значение терминов
  3. Тематическое исследование
  4. Заключение

1. Введение

Подумайте о хирурге, пытающемся удалить злокачественную опухоль у пациента. Хирург должен вырезать все опухолевые клетки, потому что любой остаток может привести к повторному росту. С другой стороны, он не должен удалять здоровые клетки, так как это может привести к ненужному ухудшению. Если хирург решит быть чрезвычайно радикальным в своем разрезе, чтобы убедиться, что он удалил всю опухоль, «точность» будет ниже, а «отзыв» будет выше. И наоборот, если он решит быть консервативным со своим разрезом, чтобы гарантировать, что он не удалит излишне здоровые клетки, точность будет выше, но отзыв снизится.

Это означает, что высокий отзыв увеличивает шансы на удаление всех раковых клеток (положительный результат), а также увеличивает шансы на удаление нераковых клеток (отрицательный результат). Между тем, более высокая точность снижает шансы на удаление всех опухолевых клеток (отрицательный результат), но также снижает вероятность вырезания здоровых клеток (положительный результат).

Приведенный выше пример иллюстрирует компромисс, который мы обсудим. В основном существует обратная связь между отзывом и точностью, попытка увеличить одно происходит за счет снижения другого.

С той же проблемой хирург, как и в нашем примере, сталкивается при построении моделей машинного обучения. Получение модели с максимально возможной точностью приведет к потере доли ее полноты, и наоборот.

Таким образом, баланс между ними должен быть установлен на основе варианта медицинского использования и связанных с ним требований. Например, в нашем тематическом исследовании (обнаружение рака) допустимы ложноположительные случаи, поскольку жизненно важно выявить все положительные случаи. Наоборот, для обнаружения более распространенных и менее серьезных заболеваний наличие модели с максимально возможной точностью может быть более важным, поскольку наличие большого количества ложных сигналов тревоги приведет к чрезмерной ручной работе и пустой трате времени. Однако в тех случаях, когда мы хотим найти оптимальное сочетание точности и полноты, мы можем объединить эти две метрики, используя оценку F1.

2. Определение терминов

Истинно положительный (TP) представляет собой количество правильно классифицированных положительных образцов. Например, количество кадров, содержащих злокачественную опухоль, правильно предсказано как злокачественная.

Истинно отрицательный (TN) представляет собой количество правильно классифицированных отрицательных образцов.

Ложноположительный результат (FP) представляет собой количество образцов, ошибочно классифицированных как положительные.

Ложноотрицательный (FN) представляет количество образцов, ошибочно классифицированных как отрицательные.

Вспомнить. Сколько из всех положительных примеров прогнозируется положительным? Отзыв, также известный как чувствительность, представляет собой процент правильно предсказанных положительных образцов и рассчитывается как отношение между правильно классифицированными положительными случаями и всеми случаями, классифицированными как положительные. Эта метрика является одной из самых важных для медицинских исследований, поскольку крайне важно обнаружить как можно больше положительных случаев, что приводит к высокому отзыву.

Точность. Сколько из всех предсказанных положительных случаев являются положительными на самом деле? Он представляет собой долю извлеченных образцов, которые относятся к данному классу, и рассчитывается как отношение между правильно классифицированными образцами и всеми образцами, отнесенными к этому классу.

Оценка F1 – это среднее гармоническое между точностью и полнотой, означающее, что она наказывает крайние значения того и другого. Эта метрика не симметрична между классами, т. е. зависит от того, какой класс определен как положительный, а какой отрицательный.

3. Тематическое исследование

По данным Всемирной организации здравоохранения, рак молочной железы является наиболее распространенным видом рака в мире, на его долю приходится более 12% всех новых ежегодных случаев рака во всем мире. У женщин смертность от рака груди выше, чем от любого другого рака, кроме рака легких. Если рак молочной железы обнаружен на ранней стадии, существует больше вариантов лечения и больше шансов на выживание (выживаемость 93 процента или выше в течение первых пяти лет).

Таким образом, при построении модели обнаружения рака нашим приоритетом должно быть обнаружение всех случаев злокачественности, даже если это будет стоить нескольких ложных тревог. Если вы следили, это означает, что модель с отзывом 1.0. Пытаясь добиться этого, мы должны попытаться найти способы сохранить точность настолько высокой, насколько это возможно.

Здесь я лишь кратко расскажу о подходах, которые я использовал для достижения такого результата.

Проверить весь проект → Ссылка на блокнот и набор данных.

→ GridSearchCV.

GridSearchCV — это библиотечная функция в пакете sklearn model_selection, которая помогает перебирать предопределенные гиперпараметры и оценивает модель для каждой комбинации, используя метод перекрестной проверки. Следовательно, после использования этой функции мы можем выбрать комбинацию гиперпараметров с наилучшей производительностью.

GridSearchCV использует «точность» по умолчанию для поиска лучших параметров. При передаче этих параметров для нашей первой модели логистической регрессии отзыв перекрестной проверки составил 0,943, точность 0,990.

Но поскольку мы больше всего заинтересованы в отзыве, мы должны сообщить GridSearchCV, чтобы он предоставил нам параметры, которые дадут нам самый высокий отзыв, добавив «scoring = ‘recall’».

Используя параметры, полученные в результате этого, отзыв перекрестных значений увеличился, а точность снизилась - компромисс

→ Классификатор голосования

Затем я решил попробовать классификатор голосования, который объединяет обе модели регрессии. Классификатор голосования — это модель машинного обучения, которая обучает различные базовые оценщики и делает прогнозы на основе объединения результатов каждой базовой модели.

Таким образом, объединение двух моделей логистической регрессии дает возможность использовать высокую точность первой модели и высокую точность и полноту второй.

→ Пороговое значение классификатора голосования.

Еще один способ повлиять на баланс точности отзыва — установить порог. Пороговое значение относится к установке порога для оценочного балла и обработке прогнозов/моделей по-разному в зависимости от того, оценивают ли они выше порогового значения или нет. Пороговое значение по умолчанию для нашей модели классификации (как и для всех бинарных оценок) равно 0,5. Значения значений, меньшие порога 0,5, относятся к классу 0, а значения, большие или равные 0,5, относятся к классу 1. Построив матрицу путаницы при различных порогах, мы можем найти, а затем выбрать порог, который дает 100% отзыв с помощью максимально возможная точность.

Используя приведенный ниже код, мы смогли увидеть разные значения отзыва и матрицы путаницы для нашего классификатора голосования при разных пороговых значениях.

С порогом, установленным на 0,1, мы получаем отзыв 1,00, точность 0,889 и показатель f1 0,941. Это был самый высокий показатель точности, который мы могли получить для разных моделей с отзывом = 1,0.

4. Заключение

Точность как метрика оценки не обязательно является самой важной. В зависимости от того, для чего нужна модель, есть и другие показатели, которые могут быть более важными. Напомним, что наиболее важно, когда мы не можем позволить себе иметь ложные отрицательные результаты, даже если это происходит за счет большего количества ложных тревог (FP). Существуют разные методы оптимизации отзыва, но обычно это приводит к снижению точности.

Мерси!

Ссылка на блокнот и набор данных.