Понимание ландшафта технологий здравоохранения и искусственного интеллекта

Искусственный интеллект и машинное обучение стали применяться в здравоохранении еще в 60-х и 70-х годах. Стэнфорд разработал алгоритм под названием MYCIN System, который может идентифицировать тяжелые бактерии, вызывающие инфекцию. В 69% случаев ему удалось предложить хорошую терапию, которая оказалась лучше, чем у специалистов того времени.

В 80-х годах в Питтсбургском университете была разработана модель INTERNIST-1 / Quick Medical Reference. Он мог диагностировать, какое заболевание или состояние у пациента из сотен, на основе множества зарегистрированных симптомов. На высоком уровне они смоделировали это как байесовскую сеть, но изначально носили более эвристический характер. На получение априорной оценки каждого из этих заболеваний и симптомов было потрачено 15 человеко-лет.

Но на самом деле это никогда не было интегрировано в клинический рабочий процесс. Весь процесс ручного сбора и ввода структурированных данных с последующим постановкой диагноза был намного медленнее, чем у экспертов-людей, и его трудно было интегрировать в клинический рабочий процесс. В модели не происходило реального обучения. Это был искусственный интеллект, а не машинное обучение. Это не сработает в другой части мира с одним и тем же производным априори, потому что априорная вероятность заболевания и появления симптомов варьируется от региона к региону, от культуры к культуре. Для каждого параметра их придется заново создавать заново. Его было трудно обобщить, т.е. он был переоборудован там, где он изначально был разработан. Основным преимуществом было человеческий опыт и знание предметной области, что является утомительным, дорогостоящим и ненадежным процессом.

В 1990 году был опубликован ряд статей, в которых в медицине использовались простые нейронные сети. Как показано ниже, задействовано не более четырех уровней, в большинстве - минимум три. Количество функций было небольшим. Данные собирались, структурировались и обрабатывались вручную людьми, особенно для целей машинного обучения, из-за чего количество выборок было довольно низким. Данных по обучению было мало, и они не вписывались в клинический рабочий процесс того времени. И, как и ИНТЕРНАСТ-1, их было трудно обобщить.

Эти первые начинания на самом деле не увенчались успехом. Но они намекали на возможности интеграции машинного обучения в здравоохранение. За последние десять лет изменился ряд переменных, которые коренным образом изменили ландшафт отрасли здравоохранения.

1. Бум данных

После экономической катастрофы 2008 года правительство США предоставило больницам пакеты стимулов на сумму около 30 миллиардов долларов на покупку электронных медицинских карт. Это побуждало все больше и больше больниц хранить большие объемы данных о пациентах, удобные для компьютеров. Были выпущены большие наборы данных, такие как PhysioNet и DeepLesion, содержащие данные о жизненно важных функциях пациентов, заметки посетителей, данные изображений, результаты анализов крови и результаты лечения. Совместные усилия исследователей со всего мира привели к созданию онлайн-баз данных (таких как NCBI, HMDB и DrugBank) по геномике, протеомике, метаболомике и молекулам лекарств. Даже нетрадиционные источники медицинских данных, такие как социальные сети (для показателей психического здоровья), теперь широко используются в клинических исследованиях благодаря инициативам с открытым исходным кодом, которые позволяют исследователям быстро опираться на работы других. Это был первый случай, когда политики начали влиять на ландшафт здравоохранения, что в конечном итоге открыло двери для интенсивных исследований в области машинного обучения на основе данных. Доступность подходящих данных - одно из основных препятствий на пути создания точных и эффективных продуктов машинного обучения. В этой статье рассказывается, почему.

2. Стандартизация данных

Однако сами по себе данные, конечно, мало пригодны. Стандартизация данных во всех областях - еще один краеугольный камень, который изменил ландшафт здравоохранения. МКБ-10 - это международная система классификации и кодирования заболеваний. Национальные коды лекарств (NDC) классифицируют и кодируют лекарства в структурированной таксономии, чтобы заинтересованные стороны могли легко получить к ним доступ и использовать. LOINC (логические имена и коды идентификаторов наблюдений) - это стандарт для идентификации медицинских лабораторных записей и наблюдений. Другие форматы, такие как FASTA, представляют собой стандартизацию геномных и протеомных типов данных.

Врачи используют UMLS (Unified Medical Language System) для стандартизации медицинских концепций, что значительно упрощает взаимодействие между программным обеспечением и приводит к созданию взаимодействующих систем в медицинской промышленности. Общая модель данных OMOP - это еще одно соглашение, которое позволяет исследователям отображать данные из источников, которые имеют свои собственные сложности, в общую модель данных и, таким образом, обеспечивает взаимопревращаемость между различными структурами данных. Другие некоммерческие организации, такие как Международное общество биодокументации, существуют для обеспечения доступности тщательно отобранных биологических данных, которые совместимы и соответствуют определенным стандартам и передовым методам. Все эти стандартизации обеспечивают лучшую коммуникацию и совместимость в отрасли. Подумайте о том, как развитие языка привело к сотрудничеству и единству ранних цивилизаций. Таким же образом биологические данные, полученные различными научными сообществами, теперь могут легко общаться друг с другом и работать в направлении чего-то большего.

3. Финансовые возможности

Технические достижения редко остаются без особого интереса со стороны инвесторов. Все эти потенциальные финансовые возможности не остались незамеченными. Только в 2017 году было сообщено о венчурном финансировании в размере около 5,6 миллиарда долларов, которое, по прогнозам, почти удвоится в 2021 году. Тысячи стартапов в области цифрового здравоохранения с основным упором на использование ИИ и машинного обучения появляются в США, Канаде, Европе и Индии. Страховые компании заинтересованы в том, чтобы предсказать, какой клиент с большей вероятностью заболеет.

Фактически, потому что данные настолько важны в этом секторе, что фирмы стремятся защитить свои права. IBM возглавила сделки по приобретению компаний Merge и Truven Health Analytics на сумму около 3,6 миллиарда долларов, обе из которых были связаны с огромным объемом данных о медицинских изображениях и заявках на страхование здоровья. Компания Roche приобрела Flatiron Health примерно за 1,9 миллиарда долларов, чтобы получить большое количество электронных медицинских карт в онкологии.

4. Технологические достижения

Наконец, очевидным изменением стало огромное развитие новых алгоритмов машинного обучения и оборудования. Более глубокие и сложные нейронные сети, такие как сверточные и рекуррентные сети, полу- и неконтролируемые алгоритмы обучения, различные варианты стохастического градиентного спуска и способность учиться на многомерных данных, являются одними из величайших достижений, которые позволяют моделям учиться и извлекать столько же знания по возможности из различных медицинских данных. В прошлом году DeepMind AlphaFold 2 решила 50-летнюю проблему предсказания сворачивания и структуры белка только по самой последовательности, что стало важной вехой для искусственного интеллекта и наук о жизни.

Несмотря на общий рост доступности данных, редкие заболевания имеют ограниченное количество случаев, и поэтому во многих медицинских случаях в целом отсутствуют достоверные данные. Большая часть данных принадлежит транснациональным корпорациям, что приводит к тому, что независимые или небольшие фирмы по-прежнему испытывают нехватку данных. Генеративные состязательные сети (GAN) использовались для синтетических медицинских данных, таких как радиологические изображения, которые могут легко обойти это узкое место, связанное с доступностью данных.

По словам Юваля Ноа Харрари, мы находимся на заре эры биотехнологий. Конечно, предстоит еще долгий путь, но любопытство - вещь увлекательная. Проактивная профилактическая медицина, вероятно, станет новой нормой, когда люди активно следят за своим здоровьем, чтобы вмешаться на ранней стадии. Это позволяет получать все больше и больше данных с таких устройств, как ваш телефон или носимые устройства. А более структурированные и размеченные данные открывают новые возможности для машинного обучения.

Ссылки:

  1. Пенни, В., и Фрост, Д. (1996). Нейронные сети в клинической медицине. Принятие медицинских решений, 16 (4), 386–398. Https://doi.org/10.1177/0272989X9601600409
  2. Миддлтон, Б., Шве, М.А., Хекерман, Д.Э., Хенрион, М., Хорвиц, Э.Дж., Леманн, Х.П. и Купер, Г.Ф. (1991). Вероятностный диагноз с использованием переформулировки базы знаний INTERNIST-1 / QMR. II. Оценка диагностической эффективности. Методы информации в медицине, 30 (4), 256–267. Https://doi.org/10.1055/s-0038-1634847
  3. Пенни, В., и Фрост, Д. (1996). Нейронные сети в клинической медицине. Принятие медицинских решений, 16 (4), 386–398. Https://doi.org/10.1177/0272989X9601600409
  4. Внедрение электронных систем медицинской документации в нефедеральных больницах неотложной помощи США: 2008–2015 гг. (нет данных). Получено 20 июня 2021 г. с сайта https://dashboard.healthit.gov/evaluations/data-briefs/non-federal-acute-care-hospital-ehr-adoption-2008-2015.php.
  5. Зонтаг Д., Весна 2019 г., Что делает здравоохранение уникальным? Лекция 1, Машинное обучение для здравоохранения, MIT 6. S897






P.S. Для получения более коротких и конкретных статей о данных, программировании и о том, как биолог проходит через революцию данных, следите за моим блогом.

Каждую минуту загружаются тысячи видео, поэтому важно отфильтровать их, чтобы вы использовали данные только самого высокого качества. Я специально подобранный мной, и я пришлю вам обучающие видео по темам, которые вам интересны. Подпишите здесь".

Спасибо за чтение!