Взгляд CNN: введение в наш набор данных и проблему классификации. Часть 3 из 7

Поиск пациентов с определенным заболеванием в большой коллекции клинических заметок с произвольным текстом

Ссылки на серии

Часть 1: Введение

Часть 2: Что сверточные нейронные сети узнают об изображениях?

Часть 3. Введение в наш набор данных и проблему классификации

Часть 4: Генерация текста для CNN

Часть 5: Скрытие токенов ввода для раскрытия фокуса классификации

Часть 6: Оценка последовательностей токенов по их релевантности

Часть 7: Заключение сериала

Наш набор данных — это корпус VetCompass™. Это очень большой корпус клинических заметок в произвольном тексте, собранных из ветеринарных клиник по всей Великобритании. VetCompass™ быстро становится одним из крупнейших в мире клинических корпусов свободных текстов (любых видов, включая людей!!)

Крупномасштабные клинические данные в произвольном формате

Вот несколько пунктов, чтобы вы могли получить некоторое представление о масштабе корпуса VetCompass™:

9,5 млн пациентов (домашних животных) из Великобритании
55 м клинических заметок
181 млн записей о лечении
2,7 млрд токенов
1,3 млн клинических кодов, применяемых «в клинике» (2% от общего числа посещений)
220 000 клинических кодов, примененных исследователями ретроспективно
Еще 18 млн пациентов в процессе импорта

Цель программы VetCompass™

Программа VetCompass™ представляет собой набор десятков текущих исследовательских проектов, направленных на улучшение благополучия животных:

Система ветеринарного наблюдения за животными-компаньонами (VetCompass™) — это международная инициатива, направленная на улучшение здоровья домашних животных. Этот некоммерческий исследовательский проект является результатом сотрудничества между Королевским ветеринарным колледжем (RVC) и Сиднейским университетом, в рамках которого мы стремимся исследовать диапазон и частоту проблем со здоровьем домашних животных и выявить важные факторы риска для наиболее распространенных заболеваний.

Вы можете прочитать о наших текущих и завершенных проектах, в том числе о многих наших исследованиях, на основном веб-сайте VetCompass. Большинство наших проектов относятся к ветеринарной эпидемиологии, но мы также работаем с учеными-компьютерщиками над методами, применяемыми к крупномасштабным клиническим данным.

Мы ищем сотрудников, которые заинтересованы в интеллектуальном анализе текста, обработке естественного языка и машинном обучении, применяемых к клиническим данным, особенно в исследовательских группах в университетах или других, которые заинтересованы в испытании методов, которые будут перенесены на человеческий клинический текст, но которые не могут получить доступ к большим объемам клинических данных.

Свяжитесь с нами, если это похоже на вас! (Ноэль Кеннеди: [email protected])

Предыстория нашей проблемы с доменом (для ее решения мы использовали CNN)

Я собираюсь процитировать здесь нашу предстоящую работу, потому что это хорошее введение в проблемную область, для решения которой мы использовали CNN:

Клиницисты пишут клинические заметки о заболеваниях, которых на самом деле нет у их пациентов. Для некоторых заболеваний подавляющее большинство упоминаний о заболеваниях записано в заметках пациентов, у которых нет болезни.

…

Упоминания о болезни часто бывают отрицательными («панкреатит исключен»), гипотетическими («при риске развития панкреатита»), общими («панкреатит чаще встречается у мужчин»), историческими («панкреатит в анамнезе»), относятся к другому человеку. («у отца был панкреатит»), хеджирование («может быть панкреатит») или часть дифференциального диагноза («ddx: панкреатит, гастроэнтерит или аппендицит»).

Источник: Kennedy et al., 2018 г. (готовится к печати).

Так почему это проблема? Ну, наши эпидемиологи проводят поиск по свободному тексту, скажем, пытаются найти пациентов с панкреатитом по запросу «панкреатит». Если вы выполните этот поиск по нашим 55 миллионам клинических записей, вы получите огромное количество совпадений, но из-за описанных выше явлений не все эти совпадения относятся к пациентам с панкреатитом. Наши эпидемиологи получают тысячи обращений за срок, а потом вынуждены читать тысячи историй болезни пациентов, у которых на самом деле нет панкреатита…

Мы называем эту проблему проблемой ложных срабатываний (FP), потому что совпадения, возвращаемые нашей системой клинического поиска, являются FP, если у пациента на самом деле нет болезни, интересующей эпидемиолога.

Мы определяем FP как: упоминание болезни в заметках пациента, если у этого пациента не было диагностировано заболевание на момент написания заметки. Для сравнения, примером истинно положительного (TP) упоминания о заболевании может быть утверждение, что автор заметки считает, что у пациента действительно есть рассматриваемое заболевание в данный момент («у пациента панкреатит»).

Источник: Kennedy et al., 2018 г. (готовится к печати).

Мы использовали классификатор CNN, чтобы определить, была ли конкретная ссылка на заболевание FP или TP. Мы были довольны нашими результатами, и мы хотели получить некоторое представление о том, для чего подходит наша CNN, чтобы получить эти результаты. Что CNN узнал о наших клинических заметках, чтобы иметь возможность классифицировать упоминание о болезни как TP или FP? Мы адаптировали три метода, которые дали представление о CNN на основе изображений, для работы с нашей текстовой CNN, чтобы посмотреть, сможем ли мы интерпретировать представления, которые изучила текстовая CNN.

Вывод

Теперь у вас должно быть общее представление о нашем корпусе и проблеме классификации. Это позволит вам понять некоторые идеи, почерпнутые из нашего CNN, следующего в серии.

Следующее сообщение : Генерация текста, чтобы соответствовать CNN