Об осторожном внедрении технологий искусственного интеллекта в здравоохранение

В последние годы кричащие заголовки часто заявляли, что здравоохранение «подрывается», будь то Amazon и Google, входящие в сферу здравоохранения, или более мелкие стартапы, ориентированные на потребителя, такие как Capsule, GoodRx, 23andMe… список можно продолжить. . А отрасль здравоохранения, на долю которой приходится 19,7% ВВП США, представляет огромные возможности, особенно в области технологий и данных.

В качестве примера того, как традиционные крупные технологические компании постепенно входят в сферу здравоохранения, часто незаметно для потребителей, вот несколько основных моментов. Amazon сделала свой первый крупный шаг в области здравоохранения в 2018 году, купив PillPack, онлайн-аптеку, которая позволяла пользователям приобретать лекарства в заранее приготовленных дозах за 753 миллиона долларов; в конечном итоге это стало частью недавно созданной аптеки Amazon. 2]» В 2021 году AWS анонсировала Amazon HealthLake, сервис, отвечающий требованиям HIPAA, для организаций здравоохранения, которые могут проводить анализ данных. В течение периода предварительного просмотра Медицинский центр Университета Раш использовал HealthLake для устранения неравенства в отношении здоровья в ответ на COVID-19, а CureMatch использовал его для поддержки принятия клинических решений онкологами для персонализированного лечения рака. [3] Совсем недавно, в июле 2022 г., Amazon попала в заголовки газет, купив One Medical, национальную сеть клиник первичной медико-санитарной помощи, почти за 4 миллиарда долларов, которая предоставила данные о медицинской системе за 15 лет. [4]

В то время как технологические компании, большие и малые, продолжают добиваться успехов в получении данных о здоровье, для чего можно использовать все эти данные? В каждой статье последних лет о главных тенденциях в области медицинских технологий искусственный интеллект (ИИ), машинное обучение (МО) и использование больших данных постоянно лидируют. [5][6] И это легко понять, почему — ИИ/МО использовался для диагностики рака молочной железы по маммограмме и анализу патологии тканей, [7] для выявления доброкачественных родинок кожи от потенциально злокачественных, [8] [9] для улучшения отслеживание органов для лучевой терапии рака, [10] и многое другое. На самом деле, он оказался настолько успешным, что выдающиеся ученые-компьютерщики, такие как Джеффри Хинтон, считают, что рентгенологи скоро останутся без работы: Я думаю, что если вы работаете радиологом, вы похожи на Хитрого Э. Койота из мультфильма. Вы уже над краем обрыва, но еще не посмотрели вниз. Под этим нет почвы… Просто совершенно очевидно, что через пять лет глубокое обучение преуспеет лучше, чем радиологи.

Будучи студентом-медиком, стремящимся через несколько месяцев получить степень доктора медицины, я особенно интересовался этой тенденцией — не только с точки зрения гарантии занятости, но и с этической, правовой и социальной точек зрения. Несмотря на то, что эти инновации, безусловно, интересны и обладают огромным потенциалом для улучшения и спасения жизней, я считаю, что технологии AI/ML следует внедрять в сфере здравоохранения более медленно и осторожно по сравнению с другими отраслями. Мой аргумент в пользу осторожности. инвестиции и внедрение технологий ИИ/МО в здравоохранении основаны на трех основных областях: неопределенности ИИ/МО в реальной клинической практике, медико-правовое влияние ИИ/МО как «черного ящика» без объяснительной силы и этика AI/ML в здравоохранении.

ИИ/МО в реальной клинической практике: может ли он быть точным, последовательным и беспристрастным?

Было опубликовано много статей об успешных случаях использования ИИ/МО в здравоохранении, но оказывается, что использование в реальных клинических условиях может нарисовать другую картину. Основатель Coursera Эндрю Нг сказал в интервью: Те из нас, кто занимается машинным обучением, действительно хорошо справляются с набором тестов, но, к сожалению, для развертывания системы требуется больше, чем просто хороший набор тестов… Когда мы собираем данные из Стэнфордской больницы, затем мы тренируемся и тестируем данные из той же больницы, и действительно, мы можем публиковать документы, показывающие, что [алгоритмы] сравнимы с радиологами-людьми в выявлении определенных состояний. Оказывается, [что когда] вы берете ту же модель, ту же систему ИИ в более старую больницу на той же улице, на более старой машине, и техник использует немного другой протокол обработки изображений, эти данные дрейфуют, что влияет на производительность ИИ. система значительно деградирует. Напротив, любой радиолог-человек может пройти по улице в старую больницу и прекрасно себя чувствовать. Таким образом, несмотря на то, что в определенный момент времени на конкретном наборе данных мы можем показать, что это работает, клиническая реальность такова, что эти модели все еще нуждаются в большой доработке, чтобы выйти на производство… Весь ИИ, а не только здравоохранение, имеет доказательства разрыв между концепцией и производством. Опрос Американского колледжа радиологии повторил опасения по поводу согласованности и предвзятости, сообщив, что подавляющее большинство алгоритмов, одобренных FDA, не были проверены на большом количестве сайтов, что повышает вероятность того, что предвзятость пациента и оборудования может привести к непоследовательной работе. .”«[12]

Существует множество приложений для смартфонов, которые сканируют родинки на коже и утверждают, что выявляют те из них, которые могут быть злокачественными, например, SkinVision[13] или Scanoma[14]. Учитывая, что рак кожи является наиболее распространенным типом рака в Соединенных Штатах. , и раннее обнаружение может иметь огромное значение для исхода пациента, потенциальное использование AI / ML для выявления закономерностей кожных поражений невероятно интересно. Тем не менее, группа дерматологов под руководством Мемориального онкологического центра имени Слоуна-Кеттеринга недавно опубликовала исследование, показывающее, что среднее коммерческое приложение в среднем дает точность только на 59%. Команда обнаружила, что алгоритмы не могли точно оценить реальные клинические сценарии кожных заболеваний, которые не наблюдались при обучении; точность также снижалась из-за простых недостатков, таких как выбившиеся пряди волос или следы от ручки на изображениях. [15][16] Учитывая почти бесконечное количество типов изображений кожи в реальном мире, кажется невозможным обеспечить алгоритм, достаточно широкий обучающий набор, чтобы когда-либо достичь значимой точности. Кроме того, следует учитывать предвзятость — в дерматологии пациенты с небелой кожей часто не диагностируются из-за традиционных медицинских учебных изображений, в основном фокусирующихся на белой коже. В том же духе исследователи в исследовании ИИ для диагностики рака кожи в 2022 году признали, что эти алгоритмы могут не так хорошо работать на цветных людях. [17]

Этот пример демонстрирует сложность масштабируемости, поскольку реальные пациенты гораздо более разнообразны, чем может когда-либо охватить обучающая выборка, а модель AI/ML может быть настолько хороша, насколько хороши введенные данные. Для большинства моделей в других областях, как правило, приемлемо иметь более ограниченный набор обучающих данных, поскольку его всегда можно расширить позднее. Однако для медицинских приложений эти выходные данные могут повлиять на человеческие жизни, и у нас просто может никогда не быть «идеального» достаточного набора данных, чтобы включать такие выбросы, как ультраредкие диагнозы или симптомы, людей со всех уголков планеты и другие реалии несовершенного мира. мир.

Другим примером является модель обнаружения сепсиса в электронной медицинской карте (EHR) Epic, модель логистической регрессии — хотя это и не AI/ML, это прогностическая аналитика, разработанная и проверенная на данных 405 000 обращений пациентов. Сепсис — это инфекция крови, угрожающая жизни; раннее выявление и лечение связаны с более низкой смертностью у госпитализированных пациентов, поэтому важно иметь сильную прогностическую силу. Epic является одним из наиболее распространенных электронных медицинских карт и представляет почти 40% рынка США, поэтому этот встроенный инструмент может иметь далеко идущие последствия. Однако исследование 2021 года, проведенное Медицинской школой Мичиганского университета, показало, что при использовании реальных ретроспективных данных модель не выявляла сепсис у 67% пациентов с сепсисом и часто выдавала ложные сигналы тревоги [18] [19]. ]» Эти плохие реальные результаты подчеркивают важность внешней проверки при использовании моделей, основанных на данных, для принятия клинических решений. Исследователи также выразили обеспокоенность по поводу непрозрачности модели Epic, учитывая ее проприетарный характер.

Медико-правовые последствия ИИ/МО как «черного ящика»

Когда мы, люди, смотрим на изображение, у нас есть врожденное ощущение того, что оно пытается изобразить — оно может быть частично затемнено, перевернуто или просто нарисовано несколькими кругами и линиями; он может быть коричневым, белым, черным или даже красным — мы все равно будем знать, что это «собака». В алгоритмах ИИ изображения представляют собой просто набор пикселей, которые не имеют никакого значения для программного обеспечения. Алгоритм обучается путем показа множества различных изображений собак (то есть множества разных наборов пикселей, которые, как известно людям, представляют собаку) с меткой «собака», и при получении нового изображения он будет искать соответствие кривой этим пикселям. чтобы найти достаточно хорошее совпадение и вернуть ярлык «собака». Алгоритм не знает, что такое «собака» на самом деле или, более того, почему это собака. Если мы спросим у алгоритма: «Почему ты назвал это собакой?», он не сможет объяснить — такова природа «черного ящика» AI/ML.

В 2015 году ученый-компьютерщик Себастьян Трун был вдохновлен смертью своей матери от рака груди и работал над разработкой AI/ML для диагностики рака груди. Обучая машину, он заметил некоторые проблемы: На некоторых снимках меланомы были отмечены желтыми дисками. Нам пришлось их обрезать — иначе мы могли бы научить компьютер определять желтый диск как признак рака… Странная вещь в нейронных сетях — вы не можете сказать, что они улавливают. Они похожи на черные ящики, внутреннее устройство которых загадочно. Доктор Сиддхартха Мукерджи написал в ответ: Как именно он определил, что поражение было меланомой? Мы не можем знать, и оно не может нам сказать. В том же интервью ученый-компьютерщик Джеффри Хинтон сказал: Система глубокого обучения не имеет никакой объяснительной силы… чем мощнее становится система глубокого обучения, тем более непрозрачной она может становиться. Чем больше признаков извлекается, тем точнее становится диагноз. Однако, почему эти признаки были извлечены из миллионов других признаков, остается без ответа. [20]

Этот характер черного ящика ИИ/МО означает отсутствие контрольного журнала: никаких объяснений решений, которые могут привести к ошибке, в отличие от случаев, когда ошибку совершает врач-человек. Есть ли в нашем очень спорном обществе медико-правовая ответственность, если программное обеспечение делает неверный прогноз или иным образом причиняет неправомерный вред? Несет ли ответственность врач, использующий программное обеспечение, или компания-разработчик системы программного обеспечения, или разработчик оригинального программного обеспечения?[21][22] Кроме того, учитывая этот черный ящик, можете ли вы сообщить о результатах ОД в медицинской литературе? ? Как можно оценить и сравнить точность таких выводов?»[23] менее важны, но в здравоохранении ставки выше.

Этика ИИ/МО в здравоохранении

Это приводит нас к обсуждению этики. Эти машины могут делать прогнозы, но в настоящее время не существует набора стандартов для принятия решений о лечении на основе результатов. Рассмотреть диагноз инсульта: инсульт лечат по-разному в зависимости от времени, прошедшего с момента появления симптомов; если острый ишемический инсульт диагностирован в течение 4,5 часов после появления симптомов, клиницисты могут провести внутривенный тромболизис с помощью тканевого активатора плазминогена (tPA), что связано со значительно более высокой вероятностью улучшения. В неврологии есть поговорка: Время — это мозг. При выявлении пациентов с инсультом алгоритмы машинного обучения, использующие несколько функций МРТ, оказались более чувствительными, чем показания человека в течение важного 4,5-часового временного окна, что, безусловно, убедительно, но в такой ситуации при отсутствии обычно определяемой аномалии в наши текущие медицинские рекомендации, относимся ли мы к нему как к надежному диагнозу острого ишемического инсульта и, таким образом, предоставляем tPA?[24] Мы должны учитывать, что tPA не является бесплатным или безопасным вмешательством: это очень дорого, и есть возможность осложнений, связанных с tPA, включая внутричерепное кровоизлияние, которое может привести к летальному исходу. Опять же, мы не можем открыть черный ящик, чтобы объяснить диагноз и принять решение, если что-то пойдет не так, и у нас, как у клиницистов, в настоящее время нет четких руководств для принятия решений с помощью машин. В конце концов, это врач-человек, которому придется продвигать лекарство tPA, и пациент-человек, который столкнется с последствиями.

Со всеми этими данными и силой принятия решений в наш век информации мы также можем учитывать ущерб от слишком большого знания, что приводит к потенциально ненужным биопсиям и процедурам, а также к негативным последствиям для психического здоровья пациента. -существование. Можно представить себе травму, связанную с получением разрушительного диагноза с помощью программного обеспечения AI / ML, возможно, в результате лечения или прохождения процедуры, а затем обнаружения того, что он был неправильным. Доктор Мукерджи писал: Многим видам рака суждено самоизлечиться. Мы умираем вместе с ними, а не от них. Что, если такой иммерсивный диагностический механизм привел бы к миллионам ненужных биопсий? В медицине известны случаи, когда ранняя диагностика может спасти или продлить жизнь. Есть также случаи, когда вы будете беспокоиться дольше, но не проживете дольше. Трудно понять, как много ты хочешь знать. [25]

Еще одна рассматриваемая этическая область — это идея самоуспокоенности в автоматизации — что с более широким внедрением таких технологий, как программное обеспечение AI / ML, врачи будут становиться все более зависимыми и самодовольными, обучаясь работе с программами и, возможно, пропуская то, что они в противном случае уловили бы с помощью традиционных методов. . Рандомизированное контролируемое исследование электрокардиограмм (ЭКГ) 2003 года, которые обычно считываются и интерпретируются врачами-резидентами (некардиологами) для обоснования решений о лечении, показало, что наличие компьютерной интерпретации значительно повлияло на этих врачей-резидентов, поскольку интерпретация резидентов была значительно менее значимой. точны при неправильной компьютерной интерпретации по сравнению с отсутствием компьютерной интерпретации вообще. [26]

Наконец, при работе с огромными объемами данных всегда существует риск для конфиденциальности данных пациентов. Например, государственно-частное партнерство в области ИИ/МО привело к некоторым недавним скандалам в этой области: в 2016 году компания DeepMind, принадлежащая Alphabet Inc/Google, заключила партнерское соглашение с Национальной службой здравоохранения Соединенного Королевства (NHS), чтобы использовать МО для лечения острых состояний. повреждение почек, что привело к критике за то, что данные пациентов были получены на ненадлежащем правовом основании. Впоследствии Google Health взяла под свой контроль приложение DeepMind, фактически присоединив огромные объемы личных данных пациентов к США, другой юрисдикции. соображения конфиденциальности данных в настоящее время. С другой стороны, строгие законы о конфиденциальности могут сделать невозможным сбор достаточного количества высококачественных данных о пациентах для надлежащего обучения моделей ИИ; это создает тонкий баланс. Недавний набег Google Health на искусственный интеллект для дерматологии использовал деидентифицированные данные, охватывающие около 65 000 изображений и данные о диагностированных кожных заболеваниях, миллионы тщательно подобранных изображений проблем с кожей и тысячи примеров здоровой кожи — по разным демографическим группам, чтобы устранять различия в состоянии здоровья. Google опубликовал несколько рецензируемых статей, демонстрирующих, что их модель искусственного интеллекта помощника дерматолога была так же хороша, как дерматолог-человек, в определении 26 распространенных кожных заболеваний, в надежде, что их инструмент поможет клиницистам более точно диагностировать такие состояния в условиях первичной медико-санитарной помощи». [29]»

Впереди

В прошлом году Управление по санитарному надзору за качеством пищевых продуктов и медикаментов (FDA) опубликовало документ, озаглавленный План действий по использованию программного обеспечения на основе AI/ML в качестве медицинского устройства (SaMD), устанавливающий надлежащие методы машинного обучения, обязывающий разработать индивидуальную нормативно-правовую базу и поддерживающую методологию, связанную с устранением алгоритмов. предвзятость. [30] Несколько месяцев назад FDA выпустило более конкретное руководство по ML в радиологических устройствах, в основном сосредоточенное на кодификации определений, потенциальных источниках ошибок и требованиях к представлению продукции и маркировке. [31] Кроме того, группы такие как Коалиция за здоровье ИИ, в которую входят системы здравоохранения, университеты и крупные технологические компании, такие как Google и Microsoft, привержены установлению государственно-частных стандартов для ИИ, хотя соблюдение этих стандартов будет добровольным. [32] Это, безусловно, шаги. в правильном направлении, но системы здравоохранения постоянно демонстрируют, что они еще не готовы полностью принять ИИ/ОД и все его последствия.[33][34]

По мере того, как мы продолжаем двигаться по этому захватывающему пути инноваций AI/ML, нам нужно сделать паузу и принять во внимание реальность: AI/ML в здравоохранении может быть непрактичным или безопасным, пока его использование не будет более подходящим и тщательным образом кодифицировано в клинических правилах, системных возмещениях. и судебно-медицинская политика. До тех пор мы должны более осторожно относиться к этому пространству медицинских технологий.

[1] https://techcrunch.com/2018/06/28/amazon-buys-pillpack-an-online-pharmacy-that-was-rumored-to-be-talking-to-walmart/

[2] https://techcrunch.com/2019/09/24/amazon-care-healthcare-service/

[3] https://www.businesswire.com/news/home/20210715005761/en/AWS-Announces-General-Availability-of-Amazon-HealthLake

[4] https://www.nytimes.com/2022/07/22/business/dealbook/amazon-acquires-one-medical.html

[5] https://www.proclinical.com/blogs/2022-4/top-10-new-medical-technologies-2022

[6] https://mobidev.biz/blog/technology-trends-healthcare-digital-transformation

[7] https://www.sciencedirect.com/science/article/pii/S0960977619305648

[8] https://news.mit.edu/2021/artificial-intelligence-tool-can-help-detect-melanoma-0402

[9] https://www.fastcompany.com/90637506/google-ai-dermatologist

[10] https://www.mayo.edu/research/clinical-trials/cls-20511050?_ga=2.18316281.1178387720.1660162682-789090762.1659382439

[11] https://www.politico.com/news/2022/08/15/artificial-intelligence-health-care-00051828

[12] https://qz.com/2016153/ai-promised-to-revolutionize-radiology-but-so-far-its-failing/