1. Синтезируйте чрезвычайно многомерные продольные электронные медицинские карты с помощью иерархической авторегрессионной языковой модели (arXiv)

Автор: Брэндон Теодору, Цао Сяо, Цзимэн Сунь.

Аннотация: Синтетические электронные медицинские записи (ЭМК), которые одновременно реалистичны и сохраняют конфиденциальность, могут служить альтернативой реальным ЭМК для моделирования машинного обучения (МО) и статистического анализа. Однако создание высокоточных и детализированных данных электронных медицинских карт (ЭМК) в исходной многомерной форме создает проблемы для существующих методов из-за сложностей, присущих многомерным данным. В этой статье мы предлагаем модель иерархического языка авторегрессии (HALO) для создания продольных многомерных EHR, которая сохраняет статистические свойства реальных EHR и может использоваться для обучения точных моделей ML без проблем конфиденциальности. Наш метод HALO, разработанный как иерархическая авторегрессионная модель, генерирует функцию плотности вероятности медицинских кодов, клинических посещений и записей пациентов, что позволяет генерировать реалистичные данные ЭМК в исходной, неагрегированной форме без необходимости выбора или агрегирования переменных. Кроме того, наша модель также создает высококачественные непрерывные переменные продольным и вероятностным образом. Мы провели обширные эксперименты и продемонстрировали, что HALO может генерировать высокоточные данные ЭМК с высокомерными вероятностями кодов заболеваний (d > 10 000), вероятностями одновременного возникновения заболеваний в течение посещений (d > 1 000 000) и условными вероятностями между последовательными посещениями (d > 1 000 000). 5 000 000) и достичь корреляции R2 выше 0,9 по сравнению с реальными данными EHR. Эта производительность затем позволяет последующим моделям машинного обучения, обученным на синтетических данных, достигать точности, сравнимой с моделями, обученными на реальных данных (0,938 AUROC с данными HALO против 0,943 с реальными данными). Наконец, использование комбинации реальных и синтетических данных повышает точность моделей ML по сравнению с тем, что достигается при использовании только реальных данных EHR.

2. Адаптация предварительно обученных языковых моделей для решения задач табличного прогнозирования в электронных медицинских картах (arXiv)

Автор: Кристофер МакМастер, Дэвид Ф. Лью, Дуглас Э. В. Пирес

Аннотация: Мы предлагаем подход к адаптации модели DeBERTa для задач электронных медицинских записей (EHR) с использованием адаптации предметной области. Мы предварительно обучаем небольшую модель DeBERTa на наборе данных, состоящем из сводок выписок MIMIC-III, клинических записей, радиологических отчетов и рефератов PubMed. Мы сравниваем производительность этой модели с моделью DeBERTa, предварительно обученной на клинических текстах из нашей институциональной EHR (MeDeBERTa), и моделью XGBoost. Мы оцениваем производительность по трем контрольным задачам для определения результатов работы отделений неотложной помощи, используя набор данных MIMIC-IV-ED. Мы предварительно обрабатываем данные, чтобы преобразовать их в текстовый формат, и генерируем четыре версии исходных наборов данных для сравнения обработки и включения данных. Результаты показывают, что предлагаемый нами подход превосходит альтернативные модели по двум из трех задач (p‹0,001) и соответствует производительности по третьей задаче, при этом использование описательных столбцов повышает производительность по сравнению с исходным именем столбца.