вы должны включать текстовые входы вместе с изображениями

Машинное обучение в радиологии прошло долгий путь. Долгое время цель состояла в том, чтобы просто сделать оценку вероятности различных состояний доступной рентгенологу во время интерпретации. В качестве доказательства посмотрите на любого из сотен поставщиков ИИ, которые коммерциализировали алгоритмы компьютерного зрения. На академическом фронте недавние достижения позволили создавать реалистично звучащие рентгенологические отчеты непосредственно из изображения. Первая статья с описанием такой модели, которую я нашел, была датирована 2017 годом, но с появлением трансформеров их стало намного больше.

Однако каждый пример архитектуры, который я нашел, страдает от одной и той же структурной проблемы.

Они не отвечают на клинический вопрос.

Когда поставщик заказывает визуализирующее исследование, он просит рентгенолога объединить свое образование и опыт, чтобы ответить на клинический вопрос. В отличие от большинства консультаций специалистов, формат асинхронный. Время от времени проводятся телефонные или личные консультации по поводу срочных выводов, но это не является нормой. Вместо этого рентгенологический отчет является основным продуктом этой консультации специалиста-рентгенолога. Цель этого документа - ответить на клинический вопрос или указание. Обычно в конце есть краткий раздел «впечатление». Например…

ПОКАЗАНИЯ: 36 лет М с гипоксией // ?pna, аспирация.

РЕЗУЛЬТАТЫ: ПА и боковые виды грудной клетки предоставлены. Легкие достаточно аэрированы. Имеется очаговое уплотнение в основании левого легкого рядом с латеральной гемидиафрагмой. Отмечается легкое набухание сосудов. Имеется двустороннее апикальное утолщение плевры. Кардиомедиастинальный силуэт отличается наличием кальцификации дуги аорты. Сердце верхних нормальных размеров.

ВПЕЧАТЛЕНИЕ: Очаговое уплотнение в основании левого легкого, возможно, представляющее аспирацию или пневмонию. Набухание центральных сосудов.

Неправильные архитектуры

Одних только медицинских изображений недостаточно, чтобы ответить, почему поставщик медицинских услуг заказал визуализирующее исследование. Например, врач может заказать рентгенографию грудной клетки, потому что у его пациента одышка и подозрение на пневмонию. В другом случае они могут заподозрить перелом после дорожно-транспортного происшествия и назначить рентген грудной клетки, чтобы исключить сломанное ребро. Одно и то же изображение может ответить на любой из этих клинических вопросов.

В ходе поиска я нашел более десяти исследований с 2017 года, описывающих архитектуры моделей, которые могут условно генерировать полные рентгенологические отчеты из изображения (Jing et al. 2017, Li et al. 2018, Xue et al. 2018, Singh и др. 2019, Юань и др. 2019, Чен и др. 2020, Миура и др. 2020, Фэнлин и др. 2021, Нооралахзаде и др. 2021, Сиршар и др. и др., 2022 г., Чен и др., 2022 г., Ян и др., 2022 г.). К сожалению, ни у кого не было ввода текста. Единственным исключением была недавняя статья, включающая полнотекстовый рентгенологический отчет в качестве текстового ввода рядом с изображением, но его цель состояла в том, чтобы удалить галлюцинации путем очистки данных, используемых для обучения модели (Ramesh et al. 2022). Эти упущения являются проблемой, потому что все вариации в сгенерированных отчетах будут исходить из изображений. Они не могут ответить на клинический вопрос, заданный в тексте поставщиком услуг.

Лучшие архитектуры

Чтобы реалистично описать, что делает рентгенолог, когда пишет отчет, модель глубокого обучения должна принимать те же входные данные. Это означает, что условное создание рентгенологических отчетов должно включать как изображения, так и текст и иметь текстовый вывод. В этом году SalesForce выпустила новую архитектуру преобразования, особенно подходящую для этого типа мультимодальных задач (Li et al. 2022). BLIP имеет двойной кодировщик текста и изображения в паре с декодером текста. Это позволяет ему продолжать генерировать новый текст для радиологического отчета с начальной точки данной подсказки. К счастью для нас, первый абзац большинства рентгенологических отчетов — клинический вопрос!

Это делает возможным условное создание радиологического отчета с помощью нескольких строк кода.

Упрощенное приложение

Начав с базовой модели субтитров к изображениям BLIP, я доработал модель причинно-следственного языка для создания рентгенологических отчетов на основе рентгенографии грудной клетки и клинической подсказки. Данные, используемые для точной настройки этих оценок, были получены из базы данных MIMIC интенсивной терапии. В частности, я сделал перекрестные ссылки на исходные рентгенологические отчеты в проекте MIMIC-CXR с изображениями JPG, доступными в проекте MIMIC-CXR-JPG.

Дополнительную информацию о том, как воспроизвести эти метки, можно найти в соответствующем репозитории Github.

Это работает? Давайте вернемся к нашему исходному рентгенологическому отчету и дополним его двумя разными клиническими показаниями. Слева мы показываем исходный вопрос для этого изображения («вопрос о пневмонии»), а справа — фиктивное беспокойство («вопрос о пневмотораксе»). Оригинальный справочный отчет находится в кавычках выше. В этом интерактивном веб-приложении вы можете поиграть со своими собственными обезличенными изображениями.

Это упрощенный пример, предназначенный для демонстрации одной концепции. Условно сгенерированные радиологические отчеты должны включать текстовые входные данные наряду с медицинскими изображениями, чтобы ответить на клинический вопрос. Очевидно, что этот вид автоматизации не предназначен для замены рентгенологов, но он может помочь им быстро формировать свои отчеты, чтобы они не начинали с нуля.

По большому счету, я видел такое несоответствие между вопросами, на которые отвечают технологи, и вопросами, которые задают поставщики медицинских услуг. Пригласите поставщика для совместной работы, и вы будете вознаграждены полезными моделями.

Большое спасибо @GarySorcher за его бесценный отзыв.

Примечание: эти мнения являются моими собственными и не отражают какую-либо работу @ Inflo Health.

Рекомендации

Чен, Чжихун и др. «Создание радиологических отчетов с помощью преобразователя с памятью». препринт arXiv arXiv:2010.16056 (2020 г.).

Чен, Чжихун и др. «Кросс-модальные сети памяти для создания рентгенологических отчетов». препринт arXiv arXiv:2204.13258 (2022).

Цзин, Баоюй, Пэнтао Се и Эрик Син. «Об автоматической генерации отчетов о медицинских изображениях». препринт arXiv arXiv:1711.08195 (2017 г.).

Ли, Джуннан и др. «Blip: начальная предварительная подготовка языковых изображений для единого понимания и создания языкового видения». Международная конференция по машинному обучению. ПМЛР, 2022.

Ли, Юань и др. «Усиленный агент гибридного поиска для создания отчетов о медицинских изображениях». Достижения в области нейронных систем обработки информации 31 (2018 г.).

Лю, Фэнлинь и др. «Изучение и дистилляция апостериорных и предварительных знаний для создания радиологического отчета». Материалы конференции IEEE/CVF по компьютерному зрению и распознаванию образов. 2021.

Миура, Ясухиде и др. «Повышение фактической полноты и согласованности при преобразовании изображений в текст радиологических отчетов». препринт arXiv arXiv:2010.10042 (2020 г.).

Нуралахзаде, Фархад и др. «Прогрессивная генерация радиологических отчетов на основе трансформаторов». препринт arXiv arXiv:2102.09777 (2021 г.).

Рамеш, Вигнав, Натан А. Чи и Пранав Раджпуркар. «Улучшение систем генерации радиологических отчетов путем удаления галлюцинаций от ссылок на несуществующие предыдущие». Машинное обучение для здоровья. ПМЛР, 2022.

Сиршар, Мерин и др. «Автоматизированное создание радиологических отчетов на основе внимания с использованием CNN и LSTM». Plos one 17.1 (2022): e0262209.

Сингх, Сонит и др. «От рентгенографии грудной клетки до рентгенологических отчетов: мультимодальный подход к машинному обучению». Вычисление цифровых изображений, 2019 г.: методы и приложения (DICTA). ИИЭР, 2019.

Ян, Шусин и др. «Знание имеет значение: создание отчетов по рентгенологии органов грудной клетки с общими и специальными знаниями». Анализ медицинских изображений 80 (2022): 102510.

Сюэ, Юань и др. «Мультимодальная рекуррентная модель с акцентом на автоматическую генерацию радиологических отчетов». Вычисление медицинских изображений и компьютерное вмешательство — MICCAI 2018: 21-я международная конференция, Гранада, Испания, 16–20 сентября 2018 г., Материалы, часть I. Издательство Springer International, 2018.

Юань, Цзяньбо и др. «Автоматическое создание рентгенологического отчета на основе слияния изображений в нескольких проекциях и обогащения медицинской концепции». Вычисление медицинских изображений и компьютерное вмешательство — MICCAI 2019: 22-я международная конференция, Шэньчжэнь, Китай, 13–17 октября 2019 г., Материалы, часть VI 22. Издательство Springer International, 2019.