Поиск пациентов с определенным заболеванием в большой коллекции клинических заметок с произвольным текстом
Ссылки на серии
Часть 1: Введение
Часть 2: Что сверточные нейронные сети узнают об изображениях?
Часть 3. Введение в наш набор данных и проблему классификации
Часть 4: Генерация текста для CNN
Часть 5: Скрытие токенов ввода для раскрытия фокуса классификации
Часть 6: Оценка последовательностей токенов по их релевантности
Часть 7: Заключение сериала
Наш набор данных — это корпус VetCompass™. Это очень большой корпус клинических заметок в произвольном тексте, собранных из ветеринарных клиник по всей Великобритании. VetCompass™ быстро становится одним из крупнейших в мире клинических корпусов свободных текстов (любых видов, включая людей!!)
Крупномасштабные клинические данные в произвольном формате
Вот несколько пунктов, чтобы вы могли получить некоторое представление о масштабе корпуса VetCompass™:
- 9,5 млн пациентов (домашних животных) из Великобритании
- 55 м клинических заметок
- 181 млн записей о лечении
- 2,7 млрд токенов
- 1,3 млн клинических кодов, применяемых «в клинике» (2% от общего числа посещений)
- 220 000 клинических кодов, примененных исследователями ретроспективно
- Еще 18 млн пациентов в процессе импорта
Цель программы VetCompass™
Программа VetCompass™ представляет собой набор десятков текущих исследовательских проектов, направленных на улучшение благополучия животных:
Система ветеринарного наблюдения за животными-компаньонами (VetCompass™) — это международная инициатива, направленная на улучшение здоровья домашних животных. Этот некоммерческий исследовательский проект является результатом сотрудничества между Королевским ветеринарным колледжем (RVC) и Сиднейским университетом, в рамках которого мы стремимся исследовать диапазон и частоту проблем со здоровьем домашних животных и выявить важные факторы риска для наиболее распространенных заболеваний.
Вы можете прочитать о наших текущих и завершенных проектах, в том числе о многих наших исследованиях, на основном веб-сайте VetCompass. Большинство наших проектов относятся к ветеринарной эпидемиологии, но мы также работаем с учеными-компьютерщиками над методами, применяемыми к крупномасштабным клиническим данным.
Мы ищем сотрудников, которые заинтересованы в интеллектуальном анализе текста, обработке естественного языка и машинном обучении, применяемых к клиническим данным, особенно в исследовательских группах в университетах или других, которые заинтересованы в испытании методов, которые будут перенесены на человеческий клинический текст, но которые не могут получить доступ к большим объемам клинических данных.
Свяжитесь с нами, если это похоже на вас! (Ноэль Кеннеди: [email protected])
Предыстория нашей проблемы с доменом (для ее решения мы использовали CNN)
Я собираюсь процитировать здесь нашу предстоящую работу, потому что это хорошее введение в проблемную область, для решения которой мы использовали CNN:
Клиницисты пишут клинические заметки о заболеваниях, которых на самом деле нет у их пациентов. Для некоторых заболеваний подавляющее большинство упоминаний о заболеваниях записано в заметках пациентов, у которых нет болезни.
…
Упоминания о болезни часто бывают отрицательными («панкреатит исключен»), гипотетическими («при риске развития панкреатита»), общими («панкреатит чаще встречается у мужчин»), историческими («панкреатит в анамнезе»), относятся к другому человеку. («у отца был панкреатит»), хеджирование («может быть панкреатит») или часть дифференциального диагноза («ddx: панкреатит, гастроэнтерит или аппендицит»).
Источник: Kennedy et al., 2018 г. (готовится к печати).
Так почему это проблема? Ну, наши эпидемиологи проводят поиск по свободному тексту, скажем, пытаются найти пациентов с панкреатитом по запросу «панкреатит». Если вы выполните этот поиск по нашим 55 миллионам клинических записей, вы получите огромное количество совпадений, но из-за описанных выше явлений не все эти совпадения относятся к пациентам с панкреатитом. Наши эпидемиологи получают тысячи обращений за срок, а потом вынуждены читать тысячи историй болезни пациентов, у которых на самом деле нет панкреатита…
Мы называем эту проблему проблемой ложных срабатываний (FP), потому что совпадения, возвращаемые нашей системой клинического поиска, являются FP, если у пациента на самом деле нет болезни, интересующей эпидемиолога.
Мы определяем FP как: упоминание болезни в заметках пациента, если у этого пациента не было диагностировано заболевание на момент написания заметки. Для сравнения, примером истинно положительного (TP) упоминания о заболевании может быть утверждение, что автор заметки считает, что у пациента действительно есть рассматриваемое заболевание в данный момент («у пациента панкреатит»).
Источник: Kennedy et al., 2018 г. (готовится к печати).
Мы использовали классификатор CNN, чтобы определить, была ли конкретная ссылка на заболевание FP или TP. Мы были довольны нашими результатами, и мы хотели получить некоторое представление о том, для чего подходит наша CNN, чтобы получить эти результаты. Что CNN узнал о наших клинических заметках, чтобы иметь возможность классифицировать упоминание о болезни как TP или FP? Мы адаптировали три метода, которые дали представление о CNN на основе изображений, для работы с нашей текстовой CNN, чтобы посмотреть, сможем ли мы интерпретировать представления, которые изучила текстовая CNN.
Вывод
Теперь у вас должно быть общее представление о нашем корпусе и проблеме классификации. Это позволит вам понять некоторые идеи, почерпнутые из нашего CNN, следующего в серии.
Следующее сообщение : Генерация текста, чтобы соответствовать CNN