Иногда запутанные концепции, связанные с интерпретацией результатов тестирования на коронавирус

Как мы оцениваем, насколько хорошо работает классификатор машинного обучения или тестовая модель? Как узнать, достаточно ли надежен медицинский тест для использования в клинических условиях?

Хотя высокоточный тест на коронавирус может быть полезен при более высокой заболеваемости, почему он менее информативен в популяциях с более низким уровнем заболеваемости? Это звучит нелогично и сбивает с толку, но на самом деле имеет приложения для определения полезности ваших собственных бинарных классификаторов!

Мы определяем валидность теста, измеряя его специфичность и чувствительность. Проще говоря, мы хотим знать, как часто тест выявляет истинные положительные и истинные отрицательные результаты.

Наша чувствительность описывает, насколько хорошо наш тест улавливает все положительные случаи. Чувствительность рассчитывается путем деления количества истинно положительных результатов на общее количество положительных результатов (включая ложноположительные).

Наша специфичность описывает, насколько хорошо наш тест классифицирует отрицательные случаи как отрицательные. Специфичность рассчитывается путем деления количества истинно отрицательных результатов на общее количество отрицательных результатов (включая ложноотрицательные).

Важный вопрос заключается в том, имеет ли модель смысл? Простое определение показателей чувствительности и специфичности не поможет! Чтобы определить, насколько значимым или клинически полезным может быть тест для населения, нам нужна исходная информация об ожидаемой частоте или распространенности заболевания. Мы используем теорему Байеса, чтобы понять это:

Возьмем население в 1 000 000 человек, где 10% из них имеют определенное заболевание. Мы используем очень надежный тест с 98% специфичностью и чувствительностью. Здесь Событие A описывает безусловную вероятность этого заболевания в популяции. P(A) = 0,10.

Событие B — это безусловная вероятность того, что наш тест окажется положительным. Мы можем рассчитать P(B), взглянув на общее количество положительных результатов. В этой популяции мы ожидаем 98 000 истинно положительных результатов, рассчитанных путем умножения уровня заболеваемости на общую популяцию и чувствительность. Для ложных срабатываний мы берем вероятность отсутствия этого заболевания (0,90) и умножаем ее на популяцию и (1-специфичность). Таким образом, мы получаем 18 000 ложных срабатываний в этом сценарии. Тогда наш P(B) или общее количество положительных результатов составляет 11,6%.

Теперь все становится немного сложнее. Все эти значения описывают, насколько точен этот тест для данной популяции. Но это не говорит нам о шансах того, что у одного человека с положительным результатом теста есть заболевание. Нам нужно применить теорему Байеса, используя эти безусловные значения в качестве нашего априорного предположения.

Тогда, если кто-то сделает тест, который окажется положительным, какова вероятность того, что болезнь присутствует?

Здесь мы можем начать определять наши переменные.

  • P(A) = 0.10
  • P(B) = 0.116
  • P(B|A) описывает вероятность получения положительного результата независимо от того, истинно он положительный или нет, а P(A) — наличие заболевания. Таким образом, P(B|A) — это наша чувствительность. P(B|A) = 0,98.
  • P(A|B) = 0.98 * 0.1 / 0.116 = 84.5%

Итак, здесь мы видим, что даже при высокой чувствительности и специфичности тест может быть не таким точным в некоторых популяциях. Используя теорему Байеса, мы можем довольно легко вычислить это.

Но что было бы, если бы эта болезнь была менее распространена среди нашего населения? Напомним, что чувствительность и специфичность остаются на уровне 98%.

  • P(A) = 0.01
  • P(B) = (истинно положительные + истинно отрицательные)/общая популяция = (0,01*0,98 + 0,02*0,99)/10000000 = (9800 + 19800)/1000000 = 0,0296
  • P(A|B) = 0.98 * 0.01 / 0.296 = 33.1%

Поскольку заболевание теперь встречается реже, апостериорная вероятность получения положительного результата теста при наличии заболевания ниже. По мере снижения распространенности заболеваний среди населения снижается и наша положительная прогностическая ценность!

При создании биомедицинского теста или другой модели с бинарной классификацией помните, когда это может быть полезно. Глядя на то, насколько хорошо наш тест работает для нашей конкретной группы населения, потому что при достаточно низкой распространенности заболевания он может быть не очень полезен!

Из этого следует, что если вы создаете классификатор для чего-то, что может быть редкостью в общей популяции, вам нужна очень высокая чувствительность и специфичность для высокой положительной прогностической ценности!