Оценка автономных и вспомогательных диагностических инструментов на базе искусственного интеллекта

По мере того, как все больше и больше компаний выпускают вспомогательные и автономные диагностические программные продукты на базе искусственного интеллекта, поставщики медицинских услуг будут все чаще вынуждены оценивать их. Поставщики предоставляют стандартные показатели производительности, и я расскажу, как эти значения можно использовать для сравнения и выбора продуктов. Есть много других соображений, таких как интеграция рабочего процесса и скорость обработки, но прежде чем вы даже перейдете к этому, вам нужно знать, какой прогностической мощностью обладает система. Насколько это возможно, я выделю продукты, которые можно купить, чтобы связать варианты того, что в настоящее время могут использовать поставщики медицинских услуг. Начнем с нескольких продуктов на основе искусственного интеллекта для мотивации.

Первой автономной диагностической системой искусственного интеллекта, получившей одобрение FDA, является IDx-DR, инструмент для обнаружения диабетической ретинопатии (mtmDR). В объявлении FDA отмечает: IDx-DR - это первое устройство, авторизованное для маркетинга, которое обеспечивает решение о скрининге без необходимости для врача интерпретировать изображение или результаты, что делает его может использоваться поставщиками медицинских услуг, которые обычно не имеют отношения к офтальмологической помощи . Став врачом, который, возможно, рассматривает возможность использования этого продукта, мне нужно обдумать несколько вопросов - насколько хорошо он работает по сравнению с офтальмологами-людьми? Насколько хорошо он работает в абсолютном выражении? Для IDx-DR опубликованная оценка чувствительности составляет 0,87, а специфичность - 0,90. Эти показатели помогут нам ответить на вопросы о пригодности.

Второй продукт, предназначенный для обнаружения аритмии и предназначенный для использования в качестве вспомогательного устройства, - это пластырь для мониторинга ЭКГ Zio от iRhythm. Они впечатляюще сообщают, что новое исследование, опубликованное в журнале Nature Medicine, показывает, что алгоритм глубокого обучения может научиться обнаруживать и классифицировать аритмии с точностью кардиолога. Они предоставляют среднюю площадь под рабочей кривой приемника, равную 0,97, и отмечают, что со специфичностью, установленной на уровне средней специфичности, достигнутой кардиологами, чувствительность DNN превышает среднюю чувствительность кардиолога для всех классов ритмов. Показатель AUROC поможет нам понять прогнозную ценность программного обеспечения.

Быстрый перерыв, чтобы пройти, как переходить по числам

Есть две основные вещи, которые представляют интерес для производительности модели.

Как он выглядит по сравнению с людьми?
Какова абсолютная эффективность?

Если это не на одном уровне с людьми, будет трудно оправдать клиническое использование. Если и люди, и алгоритмы плохи, то пользы тоже, конечно, мало. Он начинает приносить пользу, когда производительность достигает человеческих и сверхчеловеческих способностей и когда абсолютные значения согласуются с клиническими целями, то есть когда уместны истинно положительные и ложно отрицательные значения.

Три показателя помогают ответить на относительное и абсолютное сравнение.

Чувствительность. Чувствительность, также называемая «истинно положительным показателем», - это количество элементов, отмеченных как положительные из всех положительных наблюдений: TPR = TP / (TP + FN). Все, что на самом деле является положительным, - это сумма элементов, правильно помеченных как положительные, плюс положительные элементы, неправильно помеченные как отрицательные.
Специфичность. Специфичность, также называемая «ложноотрицательной ставкой», - это количество элементов, помеченных как отрицательные из всех отрицательных наблюдений: TNR = TN / (TN + FP). Все, что на самом деле является отрицательным, - это сумма элементов, правильно помеченных как отрицательные, плюс отрицательные элементы, ошибочно помеченные как положительные.
Рабочая кривая приемника: кривые ROC суммируют компромисс между частотой истинных положительных и ложных положительных результатов для прогнозной модели с использованием различных пороговых значений вероятности.

Ряд статей и видео прекрасно освещают эти темы.

Интерактивная визуализация ROC, ссылка
Рассказанное объяснение визуализации ОКР, ссылка.
Запись в Википедии о чувствительности и специфичности, ссылка.
Запись в Википедии о RoC, ссылка

Есть несколько связанных показателей, точность и f-мера, которые я не буду обсуждать, но они также часто предоставляются и раскрывают аналогичные представления о производительности модели.

Когда человек или модель классифицируют что-либо, могут произойти две вещи: они либо правильно, либо неправильно. Давайте на минуту забудем о человеке или машине, поскольку числа означают одно и то же, независимо от того, как классифицируются наблюдения. В наборе классифицируемых элементов будет сочетание элементов, некоторые из которых имеют то, что мы пытаемся маркировать, а некоторые - нет. Что нас интересует, так это то, сколько вещей мы сделали правильно? А из того, что не так, сколько мы ошиблись? Если мы смотрим на автомобили, мы можем попытаться обозначить их как новые или подержанные, если мы смотрим на груду одежды, мы можем разделить их на темные и белые, если мы обследуем пациентов, мы хотим идентифицировать больных и здоровых. Во всех этих сценариях для измерения производительности нам необходимо знать: 1) количество фактических предметов в классе (например, новые, не новые; темные, не темные; здоровые, нездоровые), 2) количество предметов правильно. или неправильно обозначены для каждого класса.

Оценка поставщиков

Сделав обзор концепций сравнения, давайте еще раз взглянем на упомянутые ранее показатели IDx и iRhythm, продукт для прогнозной аналитики электронных медицинских карт, Dascena Insight и дерматологическую модель - и оценим их относительную и абсолютную эффективность.

IDx-DR / диабетическая ретинопатия

Как упоминалось во вступлении, DBx-DR - это одобренная FDA система для автономной диагностики диабетической ретинопатии. Давайте посмотрим, насколько хорошо он работает в относительном и абсолютном выражении. Заявленные значения чувствительности и специфичности составляют 0,87 и 0,90 соответственно. Согласно недавней публикации Google, обученные офтальмологи получили сопоставимые результаты. В ROC из бумаги, представленной ниже, цветные точки - это результаты офтальмолога, а синие точки - специалисты по сетчатке.

Следовательно, для относительной производительности, кажется, что система работает на уровне человека. Однако было бы полезно провести более подробное исследование работы офтальмолога, чтобы быть уверенным.

iRhythm / Сердечный мониторинг

Перейдем к кардиологии, давайте взглянем на показатели, предоставляемые iRhythm, чтобы понять качество их классификатора. Что касается относительной производительности, то в модели ИИ интересно то, что вы можете указать TPR и максимизировать FPR или вы можете указать FPR и максимизировать TPR. В исследовании iRhythm они фактически сделали это, установив TPR на уровне кардиолога и измерив, был ли FPR лучше или хуже, чем у кардиологов. В результате они обнаружили, что «фиксируя специфичность на среднем уровне специфичности, достигнутом кардиологами, чувствительность DNN превышала среднюю чувствительность кардиолога для всех классов ритмов». Это означает, что когда они зафиксировали частоту ложных срабатываний на уровне среднего кардиолога, их модель имела более высокий процент истинных положительных результатов, чем средний кардиолог. Но насколько выше? Таблица чувствительности и специфики позволяет нам понять это.

Представим, что у нас есть набор из 100 пациентов с фибрилляцией и трепетанием предсердий и 100 без них, и это два класса. Если взять первую строку результатов, которая соответствует фибрилляции и трепетанию предсердий, то таблица говорит нам, что средний кардиолог правильно идентифицировал бы 71 из 100 пациентов, у которых действительно была AFF (71% истинно положительных результатов) и неправильно обозначил 5,9 пациентов. у которых не было AFF, так и с AFF (частота ложных срабатываний 5,9%). Модель iRhythm, поскольку частота ложных срабатываний была фиксированной, также указывала бы, что 5,9 пациентов имели AFF, а на самом деле ее не было. Модель работала бы лучше при идентификации пациентов из 100, у которых действительно была AFF, однако правильно пометила 86,1 из них (истинно положительный показатель 86,1%). Смысл этого в том, что при не худшем уровне ложноположительных результатов модель имела более высокий показатель истинных положительных результатов. Выходные данные модели показывают аналогичную историю для каждой из 12 аритмий, классифицированных моделью (все классы ритмов).

Дассена / Сепсис

Пока я оценивал диагностические модели на основе изображений, аналогичные показатели используются для оценки других систем искусственного интеллекта. Давайте рассмотрим платформу Dascena для прогнозирования начала сепсиса на основе электронных медицинских карт Sepsis Insight. В разделе производительности их продуктового предложения они сообщают о чувствительности 90% и специфичности 90% на начальном этапе. В совместном исследовании с Медицинским центром Калифорнийского университета в Сан-Франциско (UCSF) (Сан-Франциско, Калифорния, США) они организовали испытание ... призванное продемонстрировать превосходство использования алгоритмического предсказателя по сравнению с текущим больничным. Система наблюдения за тяжелым сепсисом, основанная на собственных правилах EHR ». Чтобы оценить различия, мы можем взглянуть на показатели AUROC, чувствительности и специфичности в разных системах.

Используя физиологические данные, собранные во время исследования у включенных участников, алгоритм более точно обнаружил тяжелый сепсис, чем критерии MEWS, SIRS, оценка SOFA или оценка qSOFA в ретроспективном анализе. Разбивая сообщенные значения, мы можем понять улучшения более конкретно. Представим себе, что в больнице 200 пациентов, из которых у 100 начался тяжелый сепсис, а у 100 - нет. Во-первых, глядя на AUROC, 0,952, становится очевидным, что алгоритм машинного обучения (MLA) от Dascena хорошо справляется с разделением двух классов (начало сепсиса, а не начало сепсиса). Для сравнения, другие системы имели более низкую частоту истинных положительных и более высокую частоту ложных срабатываний. По всем комбинациям показателей MLA превзошла результаты.

Глядя на конкретное значение из ROC, чувствительности 0,9 и специфичности 0,9, перечисленных в таблице, мы знаем, что это означает, что из 100 воображаемых пациентов с сепсисом MLA правильно определит 90 (истинно положительный показатель 90%) и пропустит 10 (ложноотрицательный показатель 10%, 1 - чувствительность). Для гипотетических 100 пациентов без сепсиса модель отметит 10 как больных сепсисом, которые на самом деле здоровы и не болеют сепсисом (частота ложноположительных результатов 10%, специфичность 1).

Стэнфорд / Дерматология

Возвращаясь к подходам к классификации на основе изображений, давайте оценим, насколько хорошо модели могут диагностировать рак кожи. Stanford ML Group построила модель глубокого обучения, которая соответствовала эффективности дерматологов при классификации рака кожи.

«Мы тестируем его эффективность с участием 21 сертифицированного дерматолога на подтвержденных биопсией клинических изображениях с двумя критически важными случаями использования бинарной классификации: злокачественные карциномы и доброкачественные себорейные кератозы; и злокачественные меланомы по сравнению с доброкачественными невусами. Первый случай представляет собой идентификацию наиболее распространенных видов рака, второй - выявление самого смертоносного рака кожи ».

Результаты показывают, что их модель превзошла среднего дерматолога, как это видно на диаграммах ROC. Следует обратить внимание на то, что они отображают истинную положительную скорость по сравнению с истинной отрицательной скоростью. На предыдущих диаграммах ROC были показаны зависимости специфичности от чувствительности 1. Передаваемая информация идентична, с низким уровнем ложных срабатываний, соответствующим правой стороне оси, а не левой.

Преимущества и рекомендации автономной и вспомогательной диагностики на основе искусственного интеллекта

Преимущества

ИИ может помочь решить проблему нехватки врачей, особенно среди групп населения, не получающих медицинских услуг. Бразилия, например, недавно развернула платформу теледерматологии и очистила 60 тысяч пациентов с помощью своего приложения для компьютерного зрения.
Модели можно запускать по историческим записям, так как обработка существующих изображений требует низких предельных затрат.
Другие преимущества, по словам Google, включают: повышение эффективности, воспроизводимости и охвата программ скрининга; снижение барьеров для доступа; и улучшение результатов лечения пациентов за счет раннего выявления и лечения (ссылка).

Сравнение производительности поставщиков

Когда у нескольких поставщиков есть диагностическое решение для одного и того же заболевания или состояния, для сравнения производительности между ними можно использовать пройденные нами показатели - чувствительность, специфичность и AUROC. Одна из проблем, возникающих при этом, заключается в том, что поставщики наборов данных, которые используют для сравнительного анализа, часто отличаются, и пороговые значения, выбранные для отчетности о чувствительности и специфичности, могут быть разными. Кроме того, в разговоре с аналитиками данных о сравнении поставщиков было сделано наблюдение, что поскольку каждая группа пациентов будет отличаться от наборов данных, которые поставщики обучают и сравнивают с их моделями, хороший шаг, который следует предпринять, - запустить репрезентативную набор примерно из 1000 точек данных о пациентах с помощью моделей для создания показателей для вашей конкретной группы пациентов. Таким образом, вы сможете увидеть, как модель, вероятно, будет работать в вашем собственном клиническом использовании.

Ответственность

Где срок жизни ответственности за ошибки, допущенные автономной системой? Имеет смысл, что это будет поставщик программного обеспечения. Это мнение IDx, сформулированное их основателем Майклом Абрамоффом, доктором медицины, в этом интервью Washington Post. Когда был поднят вопрос о том, кто в конечном итоге несет ответственность за то, что ИИ делает что-то не так, он отметил: «ИИ несет ответственность, и, следовательно, ответственность несет компания. […] У нас есть страхование от врачебной практики, ИИ не идеален, врачи не идеальны […] он будет делать ошибки. (интервью, 15: 00–16: 00). Я думаю, что интересно здесь то, что, имея базовый уровень чувствительности и специфичности, вы можете определить, делает ли модель больше или меньше ошибок, чем сделал бы человек. Это ведет к следующей теме: каковы преимущества применения модели вместо человеческих оценок?

Выбор того, в чем быть правым

При постановке диагноза клиницисты явно не нацелены на показатель истинно положительных или ложноположительных результатов. Они делают все возможное в обоих случаях. Конечно, в конечном итоге они генерируют показатели TPR и FPR. Однако любопытная вещь в моделях ИИ заключается в том, что вы можете выбрать, какую скорость максимизировать. Если вы поиграли с инструментом построения графиков ROC, описанным выше, вы можете увидеть компромиссы, когда будете перемещаться по частоте ложных срабатываний от 0 до 1.

В сценарии, где допустимо много ложных срабатываний или когда истинно положительный показатель является наиболее важным, вы можете выбрать порог вероятности, который будет использоваться для разделения классов. Вот еще раз ссылка на интерактивную диаграмму ROC, чтобы изучить компромиссы, ссылка.

Автономная диагностика заболеваний находится на начальном этапе, и в ближайшие годы мы можем ожидать, что количество истинно положительных результатов улучшится, а количество ложных срабатываний будет снижаться по мере того, как будут генерироваться дополнительные данные и улучшаться алгоритмы.

Автор: Тревор З. Халштейн, руководитель отдела медицинских продуктов Swish Labs.

Оценка автономных и вспомогательных диагностических инструментов на базе искусственного интеллекта - показатели производительности