В этом посте обсуждается наш журнал с открытым доступом.

Представьте, что вы находитесь в отделении неотложной помощи и ухаживаете за пациентом, которому трудно говорить.

Вы должны убедиться, что их симптомы не вызваны инсультом. Вы заказываете КТ-ангиограмму головы и шеи, чтобы оценить, есть ли какие-либо закупоренные кровеносные сосуды в головном мозге, которые могли вызвать инсульт. Отрицательная ангиограмма не исключает полностью инсульт, но любые положительные результаты сразу же вызывают беспокойство, и вам нужно будет быстро отреагировать на них.

Сканирование завершено, рентгенолог просматривает его и передает вам свой отчет в электронном виде. Вы быстро просматриваете раздел «Впечатления» внизу, чтобы увидеть, каков был их вывод:

«ЕСТЬ ДОКАЗАТЕЛЬСТВА ЗНАЧИТЕЛЬНОГО СТЕНОЗА, ДИССЕКЦИИ ИЛИ ТРОМБОЗА».

Как вы отреагируете? Вы обеспокоены, но сбиты с толку тем, насколько расплывчатый отчет. Почему они не сказали, в чем была конкретная проблема? Вы прокручиваете полный отчет вверх и вниз, но не можете найти более подробной информации о том, что не так: все, что конкретно комментировано, является отрицательным.

Вы вызываете рентгенолога, и после повторного просмотра изображений он сообщает вам, что никаких отклонений не было, и эта линия была ошибочной. Они вносят поправки в свой отчет:

«ДОБАВЛЕНИЕ: ОБРАТИТЕ ВНИМАНИЕ ИСПРАВЛЕННОЕ ВПЕЧАТЛЕНИЕ: НЕТ ДОКАЗАТЕЛЬСТВ ЗНАЧИТЕЛЬНОГО СТЕНОЗА, ДИССЕКЦИИ ИЛИ ТРОМБОЗА».

Подобные ошибки случаются

Обзор 2015 года в клинике Мэйо обнаружил, что частота ошибок в радиологических отчетах достигает 19,7% в нейрорадиологии и всего 3,2% в рентгенограммах грудной клетки, при общем уровне 9,7%.

Рентгенологи диктуют свои отчеты прямо в медицинской карте. Они вынуждены работать быстро, и их часто прерывают при создании отчетов. Все это приводит к ошибкам.

Некоторые могут просто смущать, например, непреднамеренный надиктованный текст в отчете во время разговора с коллегой:

«СПАСИБО СПОСОБНОЙ НОЧИ»

Другие, такие как воображаемый пример в начале этой статьи, могут создать серьезную клиническую путаницу. Обзор Mayo показал, что почти 20% таких ошибок были клинически значимыми.

Глубокая НЛП в радиологии

Исследователи опубликовали методы глубокого обучения, которые помогают рентгенологам интерпретировать изображения (например, здесь, здесь, здесь). В нашей статье мы показываем, что они также полезны для исправления текста радиологических отчетов.

Это безумие, что в моих текстовых сообщениях исправляются ошибки с помощью глубокого обучения, но у радиологов нет доступных инструментов для корректуры, кроме средства проверки орфографии, которое не обнаружит ошибки, показанные выше. Рентгенологические отчеты часто оказывают непосредственное влияние на уход за пациентом, например, определяют, можно ли безопасно отправить пациента домой из отделения неотложной помощи или его нужно поместить в больницу. Ошибки могут иметь серьезные последствия.

Хотя мы могли бы захотеть использовать существующее программное обеспечение для проверки грамматики, они не могут анализировать узкоспециализированный язык и синтаксис радиологических отчетов. Я знаю это, потому что пытался - не вышло.

Нам нужен подход, адаптированный к странной лексической области радиологии.

Наш подход

Чтобы обучить модель, которая могла бы выявлять и исправлять предложения, содержащие ошибки, нам потребовались обучающие примеры для нашей модели. Мы брали отчеты о радиологии (компьютерная томография головы и рентген грудной клетки) и искусственно создавали ошибки путем случайного добавления, замены или удаления слов из предложений в каждом отчете. Испорченные предложения с их исходными неповрежденными предложениями дали нам пары «опечатка» и «исправленные» предложения, которые мы используем для обучения модели последовательность-последовательность для обнаружения ошибок. Мы использовали модель для прогнозирования каждого неискаженного предложения, используя в качестве входных данных испорченное предложение:

На высоком уровне этот подход аналогичен подходу, используемому такими инструментами, как Grammarly, при исправлении электронной почты. Мы полагали, что это будет хорошо работать с отчетами о радиологии, потому что эти отчеты на самом деле довольно просты лексически (обсуждается здесь). Вещи обычно говорят одинаково, но иначе, чем в типичной английской прозе, что затрудняет использование ранее существовавших инструментов для решения этой проблемы.

Результаты

Мы обнаружили, что наш подход довольно хорошо работал при исправлении этих случайных вставок, замен и удалений слов в радиологических отчетах:

«Seq2seq обнаружил 90,3% и 88,2% искаженных предложений со специфичностью 97,7% и 98,8% в наборах тестов с той же самой модальностью для компьютерной томографии головы и рентгенограмм грудной клетки соответственно».

Другими словами, наша модель, обученная случайным образом вводимым ошибкам, смогла обнаружить около 90% таких ошибок в новых отчетах с очень высокой специфичностью. Это обнадеживающая демонстрация того, что подобный подход может работать для выявления ошибок в радиологических отчетах.

Затем мы взяли эту модель - опять же, обучившись случайно созданным ошибкам - и попытались использовать ее для выявления фактических типографских ошибок в отчетах, сделанных радиологами на подмножестве наших данных. Мы обнаружили, что 157/400 предложений, которые он пометил как содержащие ошибки, на самом деле содержали одно (PPV 38,6%), и что подавляющее большинство предложений, которые он считал безошибочными, на самом деле были правильными (789/800, NPV 98,6%).

Обобщение

Нам было любопытно посмотреть, насколько хорошо этот подход будет обобщать - если бы мы обучили модель руководить отчетами КТ в одной больнице и использовать их в другой, будут ли они работать? И если бы мы обучили модель составлять отчеты о компьютерной томографии и использовать их в отчетах о рентгенографии грудной клетки, они бы сработали?

Мы обнаружили, что в основном нет - производительность значительно упала. Нам действительно нужно было обучить модель конкретному типу отчетов (рентген грудной клетки, компьютерная томография головы и т. Д.) Из конкретной больницы, чтобы получить хорошие результаты. Мы могли объединить отчеты из разных больниц в одну модель и по-прежнему получать хорошие результаты, но модель должна была видеть тот тип отчетов, который вы просили, чтобы она преуспела.

Это имело для нас смысл - шаблоны отчетов часто сильно различаются в разных учреждениях и, безусловно, сильно различаются для разных типов обследований (например, КТ головы и рентген грудной клетки).

Заключение и дальнейшие действия

tl; dr: модель глубокого обучения, обученная выявлять ошибки в радиологических отчетах, хорошо работала на имитированных данных и нормально работала с реальными данными, но для работы ей нужны отчеты из вашей конкретной больницы.

Есть несколько четких указаний по дальнейшему совершенствованию этого подхода.

Его следует расширить, чтобы он мог рассматривать отчет целиком, а не моделировать каждое предложение по отдельности. Разделение каждого предложения на части означает, что мы теряем информацию, которая была бы полезна для выявления ошибок (т. Е. Несоответствий между результатами и разделами впечатлений).

Необходимо провести дополнительную работу, чтобы вдумчиво ввести определенные типы важных ошибок в обучающие данные, чтобы выявить наиболее опасные ошибки, например, неправильное отрицание, ошибки латеральности и т. Д.

Наконец, нам нужно использовать тот факт, что радиологи часто исправляют многие из своих ошибок в режиме реального времени, предоставляя удивительный ресурс, чтобы узнать, как они хотят исправлять свои отчеты. Эти исправления представляют собой гораздо более полезные обучающие примеры: модель адаптируется к вашим конкретным исправлениям и узнает, что вам нужно. Технически это было бы просто сделать, и это принесло бы большую пользу в реальном мире.

Все эти уточнения могут помочь повысить точность этого подхода и повысить чувствительность и PPV до уровней, на которых обнаруживается большинство ошибок и большинство предложенных исправлений являются правильными.

Несмотря на то, что большая часть работы еще не завершена, я хотел бы, чтобы это было доступно для меня, когда я диктую отчеты, чтобы помочь мне избежать подобных ошибок. При постоянном совершенствовании, я ожидаю, что в недалеком будущем наступит день, когда радиологи потребуют этот тип программного обеспечения и откажутся от идеи работать без него. Я надеюсь, что такие компании, как Nuance, начнут внедрять этот подход в свои программы для диктовки, и что они будут делать это эффективным, а не разочаровывающим способом. Если они этого не сделают, я сам буду запускать это поверх их программного обеспечения.

Чтобы узнать больше, прочитайте полную исследовательскую статью здесь.