Анализ данных опроса NCI HINTS

Определение проекта

Обзор проекта

Целью этого исследования является попытка понять, какие факторы, связанные с демографическими данными, состоянием здоровья и интернетом/электронными устройствами, влияют на доступ и использование электронных медицинских карт (EMR) в США, используя общедоступные данные Национального онкологического Обзор национальных тенденций в сфере информации здравоохранения (HINTS) Института.

Постановка задачи

Закон о медицинских информационных технологиях для экономического и клинического здравоохранения (HITECH) от 2009 г. установил требования и стимулы для поставщиков медицинских услуг США (HCP) для принятия и продвижения использования пациентами ЭМИ [1]. Однако использование ЭМИ пациентами, по-видимому, невелико (‹ 50%), в том числе при хронических заболеваниях [2, 3].

Одним из факторов, влияющих на использование ЭМИ пациентами, является их доступность со стороны медицинского работника или другого источника, например. поставщик медицинского страхования. Понимание того, какие факторы влияют на доступность EMR, поможет повысить осведомленность медицинских работников и администраторов программ здравоохранения о возможных препятствиях для доступа пациентов к EMR. Это также позволит выяснить, должным ли образом ЭМИ предлагаются тем, кто больше всего в них нуждается (например, тем, кто страдает множественными хроническими заболеваниями или ведет нездоровый образ жизни), или тем, кто может не так сильно в них нуждаться, но с большей вероятностью будет их использовать (например, моложе, более здоровые, лучше образованные пациенты, которым, возможно, не нужно так тщательно следить за своим здоровьем).

Понимание факторов, связанных с фактическим использованием ЭМИ, также покажет, нуждаются ли пациенты, которые больше всего нуждаются в доступе к своим медицинским записям или в легкой переносимости (опять же, пациенты с множественными хроническими заболеваниями или более плохим состоянием здоровья, которым может потребоваться посещение нескольких медицинских работников или которые могут более часто посещения больницы или врача) на самом деле используют их.

Для обоих этих результатов в рамках моделей будет оцениваться вопрос о том, меняются ли со временем доступность и внедрение, а также были ли заметные изменения после начала пандемии COVID-19.

Стратегия решения этой проблемы будет заключаться в применении моделей многомерной логистической регрессии для прогнозирования двух результатов. Ожидаемый результат заключается в том, что эти модели будут давать легко интерпретируемые коэффициенты для каждой переменной-предиктора, что позволит рассчитать отношение шансов для определения силы влияния каждой из них. Эти коэффициенты также можно использовать для прогнозирования вероятности каждого исхода, что позволяет определить, какие пациенты с большей и меньшей вероятностью будут предложены, и использовать EMR.

Наконец, будут определены переменные с наибольшей разницей в распространенности между прогнозируемой вероятностью использования и доступа к ЭМИ ≥ 80% и ≤ 20%.

Метрики

Оптимальной моделью будет та, которая максимизирует точность и полноту. Это позволит свести к минимуму ложноположительные и ложноотрицательные результаты, избегая при этом ловушек, связанных с использованием точности, которые могут ввести в заблуждение в случаях дисбаланса классов результатов.

Эти показатели определяются следующим образом:

Точность = True_Positives/(True_Positives + False_Positives)

Отзыв = True_Positives/(True_Positives + False_Negatives)

Реализация scikit-learn автоматического рекурсивного устранения признаков (RFECV), используемая в этом проекте, использует их комбинацию, оценку F1:

F1_Score = 2 * точность * полнота/(точность + полнота)

Отношение шансов описывает шансы результата, когда переменная присутствует по сравнению с отсутствием, в случае бинарной переменной. Для непрерывной переменной это вероятность результата для единичного изменения предиктора. В логистической регрессии отношение шансов для предиктора с коэффициентом бета составляет:

Odds_Ratio = exp(beta)

Анализ

Для этого анализа нам требовались данные о наличии и использовании ЭМИ, а также о характеристиках пациентов, таких как демографические данные, состояние здоровья, история болезни и доступ к Интернету/электронным устройствам (электронным устройствам), которые могут повлиять на доступность ЭМИ для пациентов. и их использование.

Большинство общедоступных наборов данных в этой области контролируется правительством США. Источником, использованным для этого исследования, был Обзор национальных тенденций в области информации о здравоохранении (HINTS). Это ежегодное исследование, проводимое Национальным институтом рака с целью:

(сбор) общенациональных репрезентативных данных о знаниях, отношении и использовании американской общественностью информации, связанной с раком и здоровьем. Данные HINTS используются для отслеживания изменений в быстро развивающихся областях медицинских коммуникаций и информационных технологий здравоохранения, а также для создания более эффективных стратегий информирования о здоровье среди различных групп населения.

Исследование и визуализация данных

Полный исследовательский анализ и полученный на его основе набор данных можно найти в блокноте Jupyter DSND_Final_Explore.ipynb в репозитории Github.

Методы

Большая часть данных HINTS специфична для рака; однако есть несколько демографических переменных (например, возраст, раса, пол, географическая область, доход, географическая область). Есть также несколько областей, связанных с использованием Интернета и электронных устройств, а также с состоянием здоровья и доступом к ресурсам здравоохранения. Существуют также поля, относящиеся к доступности и использованию EMR. Опрос разработан, чтобы быть репрезентативным на национальном уровне.

Данные доступны за несколько лет до 2020 года. Каждое ежегодное обследование обозначается номером цикла и проводится в период с января по апрель. Опрос 2020 г. (цикл 4) частично совпадает с объявлением ВОЗ пандемии COVID-19 (11 марта 2020 г.) и имеет поле, обозначающее, был ли получен ответ до или после этой даты.

Чтобы оценить, развивается ли внедрение EMR с течением времени и были ли заметные изменения в (по общему признанию, ограниченному) периоду после пандемии, были также получены данные за два предыдущих года (циклы 2 и 3).

Наборы данных содержат от 438 до 731 столбцов (полученных из вопросов опроса) и от 3504 до 5438 строк (каждый из которых представляет собой уникальный ответ на опрос). Цикл 3 содержит больше ответов, потому что он включал эксперимент, в котором дополнительным респондентам была предоставлена ​​возможность заполнить опрос в Интернете, а не на бумаге. Как указано в Отчете о результатах веб-пилота HINTS (доступен в репозитории Github), те, кто был рандомизирован для веб-опроса, значительно отличались от тех, кто заполнил его на бумаге по нескольким демографическим характеристикам (пол, возраст, состояние здоровья, образование). По этой причине данные веб-ответов для цикла 3 были удалены. Это оставило 4573 отклика.

Ответы на вопросы опроса были предварительно проверены персоналом HINTS перед компиляцией в электронной форме, и включены только те ответы, которые заполнены не менее чем на 50%. В дополнение к кодам для каждого разрешенного ответа каждое поле также может содержать код, описывающий причину отсутствия данных (например, неправильный ответ, ошибочный ответ на вопрос, пропущенный ответ). Коды:

  • -1: «Действительный» отсутствует. Поле не следует заполнять, поскольку предыдущее поле было помечено записью, которая делает это поле неприменимым для данного респондента.
  • -2: Неправильно заполнено. Поле должно быть пустым на основании предыдущего ответа, но респондент дал ответ.
  • -4: Неразборчиво или не соответствует требованиям. Ответ невозможно прочитать или он выходит за пределы ожидаемого диапазона вопросов (например, рост 11 футов, возраст > 105 лет).
  • -5: выбрано больше ответов, чем нужно для вопроса.
  • -6: Отсутствующие значения в дополнениях к отсутствующему «фильтрующему» вопросу. На заменяющий вопрос, который должен побудить респондента ответить на этот вопрос, не было ответа, как и на этот вопрос.
  • -9: Отсутствует/не установлено. На вопрос должен был быть дан ответ, но его не было.

Эти коды отсутствия данных обрабатывались для конкретных полей, как описано ниже.

Хотя большинство вопросов опроса являются общими для всех циклов, не все. Наборы данных HINTS включают кодовую книгу, в которой описывается каждый вопрос опроса и перечислены возможные ответы и их частота. Используя кодовые книги, доступные переменные были предварительно проверены на релевантность и количество доступных данных. Кроме того, были исключены переменные, связь которых с доступом к ЭМИ и его использованием нельзя было отличить от причинно-следственных. Затем соответствующие переменные были согласованы, а те, которые были общими для всех трех циклов (или те, которые можно было изменить для соответствия между циклами), были сохранены. Кодовые книги и отчеты по методологии доступны в репозитории Github.

Результаты

Предварительный скрининг с использованием кодовых книг HINTS выявил 59 переменных, которые считались релевантными и присутствовали в данных за все три года. Список этих переменных можно найти в папке «data репозитория», в файле HINTS-variables.ods. Объединенный набор данных содержал 11942 записи.

Объединенные данные были разделены 70%/30% на обучающую и тестовую выборки. Затем на обучающем наборе были проведены исследовательские визуализации и одномерный статистический анализ, чтобы определить потенциальные функции для многомерной модели машинного обучения. Однофакторный анализ был проведен с использованием теста Крускала-Уоллиса для непрерывных переменных и критерия хи-квадрат для таблицы сопряженности n на m для категориальных переменных. Переменные с двусторонним значением p ‹ 0,05 рассматривались для включения в многомерную модель.

Одномерные визуализации

Из-за большого количества переменных показаны репрезентативные одномерные графики. Остаток можно посмотреть в блокноте «DSND_Final_Explore.ipynb».

Распределение репрезентативных демографических предикторов: Возраст, пол, раса, образование:

Возраст следует относительно нормальному распределению с пиком в 50–64 года. Большинство респондентов идентифицируют себя как белые и женщины, а наиболее распространенным уровнем образования является высшее образование.

Переменные результата:

Большинству респондентов доступ к EMR был предложен HCP или страховой компанией. Тем не менее, большинство из них не использовали EMR в течение последних 12 месяцев. Среди имеющих чаще всего встречается частота 1–2 раза.

Одна переменная, «phq4», была изменена на основе этого анализа. Эта переменная представляет собой шкалу психологического дистресса PHQ-4. Он колеблется от 0 до 12. Его распределение в этом масштабе показано на рисунке 7.

Большинство категорий разбросаны. Кроме того, он обычно оценивается на основе диапазонов, как показано ниже [4]:

  • 0–2 балла: дистресса нет.
  • 3–5 баллов: легкий дистресс
  • 6–8 баллов: умеренный дистресс
  • 9–12 баллов: тяжелый дистресс

Эта переменная была изменена с четырьмя категориями, представляющими указанные выше диапазоны. Пересмотренная переменная показана на рис. 8. Она по-прежнему разрежена, но немного меньше и более актуальна с медицинской точки зрения.

Многомерные визуализации и одномерная статистика

Отсутствуют записи в переменных результата

Перед изучением индивидуальных взаимосвязей между потенциальными предикторами и переменными результата необходимо определить стратегию обработки пропущенных ответов (отсутствующий код данных -9) в переменных результата. Предварительное подозрение заключалось в том, что отсутствие ответа может свидетельствовать о незаинтересованности или непричастности.

Что касается результатов доступа к EMR, характеристики пациентов, ответивших «не знаю», и тех, кто пропустил вопрос, могут быть схожими. Если это так, отсутствующие записи можно объединить с записями «не знаю». Если они не похожи, отсутствующие записи необходимо сохранить как отдельную категорию или удалить.
Чтобы оценить сходство, сравнивались ключевые демографические характеристики тех, кто ответил «не знаю», и тех, кто не ответил.

Были проанализированы демографические переменные:

  • «страта» (статус меньшинства переписного участка)
  • «highspanli» (преобладание менее владеющих английским языком)
  • «useinternet» (использование интернета)
  • «медицинская страховка» (любая форма страхования)
  • «самогендер» (пол)
  • «agegrpb» (возрастные группы)
  • «educa» (группы уровня образования)
  • «raceethn5» (расовые/этнические группы)
  • «hhinc» (группы доходов домохозяйств)

Анализ таблицы непредвиденных обстоятельств хи-квадрат использовался для оценки взаимосвязи между каждой демографической переменной и переменными результата. Нулевая гипотеза состоит в том, что респонденты, выбравшие «не знаю» (код 3) для переменных результата, имеют те же демографические характеристики, что и респонденты, которые не ответили (код -9). Альтернативная гипотеза состоит в том, что демографические характеристики этих групп различаются. Нулевая гипотеза будет отклонена для тестов с p-значением ‹ 0,05.

Результаты анализа выявили p-значения ‹ 0,05 для всех переменных, кроме «stratum» (p = 0,09) и «highspanli» (p = 0,80). Это указывает на отсутствие демографического сходства между ответившими «не знаю» и ответившими без ответа. На основании этих критериев два ответа не могут быть объединены. Различия, по-видимому, почти полностью обусловлены более высокой частотой пропущенных ответов (код -9) на демографические вопросы для тех, кто также пропустил ответ на вопрос о доступе к EMR («предложили доступ либо»). Это может свидетельствовать об общем отсутствии интереса к опросу или общей озабоченности по поводу предоставления информации. Поскольку эти опросы, вероятно, содержат большое количество полей с отсутствующими данными, требующими дополнительных допущений для обработки, отсутствующие (-9) записи для этой переменной были удалены.

Для переменной использования EMR категории относятся к частоте использования, и категории «не знаю» нет. Отсутствие ответа может означать, что респондент не использует ЭМИ, не помнит, использовали ли они его, или не хочет отвечать. Таким образом, было бы трудно определить, с какой категорией объединить категорию с отсутствующим ответом. Кроме того, поскольку категории обозначают возрастающую частоту, сохранение отсутствующего кода в виде отдельной категории приводит к нарушению этого порядка. По этим причинам, а также ввиду того, что отсутствующие данные встречаются относительно редко, опросы с отсутствующими ответами на этот вопрос также будут исключены.

Удаление этих записей уменьшает набор данных до 11578 записей.

Одномерная связь непрерывных предикторов с результатами

Существуют три непрерывные переменные: индекс массы тела (ИМТ), среднее количество минут упражнений в неделю и среднее количество алкогольных напитков в неделю. Графическое исследование было выполнено с использованием графиков типа «ящик и ус». Поскольку эти переменные отображали асимметричные одномерные распределения (см. полные результаты в «DSND_Final_Explore.ipynb»), взаимосвязь с переменными результатов была проверена с помощью непараметрического теста Крускала-Уоллиса.

На рисунках 9 и 10 показаны диаграммы «ящики» и «усы» для каждой непрерывной переменной в зависимости от каждой переменной результата.

Все взаимосвязи были значимы на уровне р

Эти поля должны исключать явно несоответствующие данные, поскольку в соответствии с методологией они были бы помечены кодом -4.

Значения ИМТ, например, охватывают крайний диапазон, но физиологически возможны. Значения средней физической нагрузки также не являются неправдоподобными (т. е. не более количества минут в неделю). Значения для средних напитков также достигают больших значений, но не невозможных, например. 120 порций в неделю — это примерно 17 порций в день.

Таким образом, возможно, что крайности просто представляют собой экстремальное поведение или физиологические крайности. По этой причине выбросы не отбрасывались. Вместо этого их влияние было уменьшено путем преобразования этих переменных в категориальные.

Перед этим недостающие записи (все отрицательные коды) были удалены, так как их нельзя поместить в квантили. В результате осталось 9803 записи, в основном из-за 940 пропущенных ответов на вопрос «среднее количество выпивки в неделю».

ИМТ был разделен на квартили со следующими пороговыми значениями:

1-й квартиль: 21,6 кг/м²

2-й квартиль: 25,6 кг/м²

3-й квартиль: 29,4 кг/м²

4-й квартиль: 37,8 кг/м²

Две другие переменные имеют большое количество элементов с нулевым значением. Для них квантили не подходят, так как ребра бинов не уникальны. Вместо этого для этих переменных использовались физиологические пороговые значения.

Для «еженедельных минут умеренных упражнений» (минут в неделю умеренных упражнений) Центры по контролю и профилактике заболеваний (CDC) рекомендуют для взрослых не менее 150 минут в неделю [5]. Категории, основанные на этой рекомендации:

  • 0 минут в неделю (наиболее часто наблюдаемое значение)
  • › рекомендуется от 0 до ‹ 50% (0 — ‹75 мин)
  • от ≥ 50% до ‹ 100% рекомендуется (75 — ‹ 150 минут)
  • от ≥ 100 до ‹ 150% рекомендуется (150–224 мин)
  • ≥ 150% рекомендуется (≥ 225 минут)

Для «avgdrinksperweek» (среднее количество алкогольных напитков в неделю) снова использовались рекомендации CDC [6]. Эти рекомендации определяют злоупотребление алкоголем как ≥ 8 доз в неделю для женщин и ≥ 15 доз в неделю для мужчин [6]. Для респондентов, которые не указали пол, использовалось среднее значение ≥ 11,5 доз в неделю. Были выбраны пороговые значения, аналогичные тем, которые используются для физических упражнений:

  • 0 напитков в неделю (наиболее частая категория)
  • › От 0 до ‹ 50 % пьянства (М: 1–7; Ж 1–3; не указано: 1–5 напитков)
  • От ≥ 50% до ‹ 100% злоупотребление алкоголем (М: 8–14; Ж: 4–7; не указано: 6–11 доз)
  • От ≥ 100 до ‹ 150 % злоупотребления алкоголем (М: 15–22; Ж: 8–12; не указано: 12–17 порций)
  • Пьянство ≥ 150% (М: ≥ 23; Ж: ≥ 13; не указано: ≥ 18 напитков)

Одномерное отношение категориальных предикторов к результатам

Графические отношения были исследованы с помощью гистограмм. Статистический анализ был выполнен с использованием методов таблицы непредвиденных обстоятельств хи-квадрат.

Первоначальный анализ включал код «пропущенный ответ» -9.

Для обеих конечных переменных единственным предиктором с недостоверной взаимосвязью (значение хи-квадрат p > 0,05) был «экигус», обозначающий активное потребление электронных сигарет. Эта переменная была удалена. Репрезентативные графики, в том числе для «экигузы», показаны ниже. Весь набор доступен в блокноте «DSND_Final_Explore.ipynb».

Как правило, код -9 встречался редко, за исключением пола, дохода семьи и расы. Для этих переменных записи -9 были сохранены как отдельные категории, поскольку они могут указывать на отсутствие идентификации с данным выбором (для расы и пола) или нежелание раскрывать личную информацию.

Для остальных переменных оценка влияния этого кода проводилась путем изучения его частоты по сравнению с другими категориями ответов и путем повторного проведения анализа с его удалением. Это показало, что значительные p-значения некоторых категорий, вероятно, были связаны с наличием флага -9. В некоторых областях это было связано с тем, что другие ответы были редкими. В других случаях это было связано с небольшими частотами в поле -9, что приводило к относительно большим расхождениям с ожидаемыми значениями. Чтобы избежать влияния этих неответов на окончательную многомерную модель, строки, содержащие их, были удалены.

После удаления кодов отсутствующих данных набор данных сократился до 7818 записей (5490 в обучающем и 2328 в тестовом наборе). В этом тренировочном наборе следующие предикторы больше не имеют существенного отношения к результату (хи-квадрат p > 0,05):

Результат доступа к EMR:

  • «healthins_tricare» (Tricare или другая военная страховка)
  • «healthins_va» (страхование VA)
  • «healthins_ihs» (только льготы Индийской службы здравоохранения)
  • «healthins_other» (другая страховка, не указанная выше)
  • «medconditions_highbp» (когда-либо диагностированная гипертония)
  • «medconditions_heartcondition» (когда-либо диагностированное заболевание сердца)
  • «medconditions_lungdisease» (когда-либо диагностированное заболевание легких)

Результат использования EMR:

  • «healthins_tricare» (Tricare или другая военная страховка)
  • «healthins_va» (страхование VA)
  • «healthins_ihs» (только льготы Индийской службы здравоохранения)
  • «medconditions_lungdisease» (когда-либо диагностированное заболевание легких)

Последние четыре предиктора, незначимые для обоих исходов, были удалены.

Кроме того, было несколько переменных, связанных с модальностью и местом доступа в Интернет, в которых респонденты могли сделать несколько вариантов выбора (например, доступ через сотовую связь, Wi-Fi, широкополосный доступ, коммутируемый доступ; использование Интернета дома, на работе, в общественных местах). Также было несколько вариантов выбора типа медицинского страхования. Чтобы избежать избыточности и возможности переобучения при использовании нескольких связанных переменных, они были изучены более тщательно, и были выполнены некоторые консолидации.

Что касается способа доступа в Интернет, было много совпадений, при этом некоторые респонденты даже сообщили об использовании как широкополосного доступа, так и коммутируемого доступа. Все вопросы да/нет, поэтому ничто не указывает, какая модальность чаще всего используется теми, кто выбрал несколько вариантов. Учитывая это, была сохранена только категория широкополосного доступа (вместе с базовой переменной доступа в Интернет и без доступа). Те, кто выбирает этот вариант, признают, что у них есть домашний, относительно высокоскоростной доступ в Интернет, и они достаточно грамотны, чтобы знать, что у них есть. Таким образом, в этой категории, скорее всего, будут различаться несколько более и менее опытные в Интернете респонденты.

Что касается местоположения доступа к Интернету, то здесь снова наблюдается сильное совпадение между категориями, даже для тех мест, где респонденты сообщают о ежедневном использовании. Однако меньше респондентов, которые в основном используют общественные места, имеют другие возможности доступа в Интернет. Это может ограничить их способность использовать ЭМИ. По этой причине была создана одна категория местоположения доступа «whruseinet_pubvother», обозначающая «ежедневное» или «иногда» публичное использование Интернета, по сравнению с «никогда» или «Н/Д», а другие категории были удалены.

Наконец, для страховки несколько возможных ответов уже были исключены из-за незначительной связи с результатами (см. выше). Кроме того, «healthins_other» был удален из-за незначительной связи с использованием ЭМИ и из-за большего количества отсутствующих ответов, чем респонденты, выбравшие «Да». Этот дисбаланс, вероятно, сделал бы это неэффективным предиктором.

Категории страхования показали некоторое совпадение, поскольку пациент может иметь первичную и вторичную страховку. Относительно немногие респонденты имеют только Medicaid, которая считается страховкой «подстраховки» для бедных или инвалидов. Однако интересно сравнить тех, кто имеет государственную страховку (Medicare или Medicaid), с теми, кто имеет частную страховку. Эти и остальные категории страхования были объединены в одну переменную «healthins_pubpriv», обозначающую частное страхование/страхование, предоставляемое работодателем, без Medicare/Medicaid, по сравнению с Medicare/Medicaid без частного страхования или страхования, выдаваемого работодателем, по сравнению с отсутствием или другим страхованием.

После этих маневров набор данных содержал всего 41 предикторную переменную (38 связанных с доступом к EMR; 41 с использованием EMR). Этот набор данных использовался для разработки моделей многомерной логистической регрессии.

Методология

Предварительная обработка данных

Данные считывались в фреймы данных pandas. Файлы данных HINTS доступны в форматах SAS, SPSS и STATA. Импорт Pandas SAS не позволяет ограничить набор столбцов для чтения, а файл SPSS для цикла 2 оказался поврежденным и не загружался. По этим причинам использовались файлы STATA.

Пятьдесят пять из 59 переменных являются категориальными. Они были преобразованы из чисел с плавающей запятой в целые числа.

Как упоминалось выше, цикл 3 включал в себя эксперимент, в котором часть респондентов могла пройти опрос в Интернете. Эти ответы были исключены, как обсуждалось ранее, поскольку демографические данные этих респондентов значительно отличались от демографических показателей респондентов, использующих бумажные носители.

Из полей в этих наборах данных были созданы две переменные результата:

  1. Доступность EMR (имя переменной «offeredaccesseither»): предлагал ли пациенту доступ к EMR либо его HCP, либо его страховая компания (кодируется как «Да», «Нет» или «Не знаю». Это была единственная переменная для Cycle). 2, но должен был быть создан путем слияния двух переменных («предложенный доступhcp2»: был ли респонденту предоставлен доступ HCP?; и «предложенный доступ insurer2»: был ли респонденту предоставлен доступ страховщиком?) для циклов 3 и 4.
  2. Использование EMR (имя переменной «accessonlinerecord»): как часто за последние 12 месяцев пациент получал доступ к своей EMR (разделено на 5 категорий от «Нет» до «≥ 10»). Эта переменная была доступна в одинаковой форме во всех трех наборах данных.

Обе переменные являются мультиклассовыми, с некоторыми разреженными категориями ответов. Предварительный анализ был проведен с оставлением их как есть, с планом их бинаризации, если многоклассовые классификации будут плохими.

Кроме того, была добавлена ​​переменная с именем «survey_cycle» для учета влияния времени и периода после пандемии. Это было закодировано с помощью 2 и 3, представляющих эти циклы, 4, представляющих Цикл 4 до пандемии, и 5, представляющих Цикл 4 после пандемии.

Затем наборы данных для трех циклов были объединены, и была оценена частота отсутствующих данных. Коды -1 и -2 были проигнорированы для этого анализа, поскольку они представляют собой вопросы, на которые респондент не должен был отвечать. Большинство переменных отсутствовало ≤ 2% данных, и только «среднее количество напитков в неделю» было > 10%, т. е. 12,1%. Исходя из этого, ни одна переменная не была удалена из-за чрезмерного отсутствия.

Отсутствующие данные обычно обрабатывались путем удаления. Исключения рассмотрены выше.

Выполнение

Проект реализован на Python. Обработку данных, очистку и предварительный анализ проводили в блокноте Jupyter «DSND_Final_Explore.ipynb».

Анализ таблицы непредвиденных обстоятельств Крускала-Уоллиса и хи-квадрат был выполнен с использованием реализаций этих тестов SciPy.

Многомерные модели логистической регрессии были созданы с использованием классификатора LogisticRegression от scikit-learn. Сбалансированные веса классов использовались для учета дисбаланса между категориями ответов результатов. Категориальные переменные были закодированы сразу, и из каждой модели была извлечена эталонная категория. Каждая модель была приспособлена к обучающему набору данных и оценена на тестовом наборе.

Сначала были опробованы многоклассовые модели, использующие все возможные ответы каждой переменной результата. Если они оказывались неадекватными из-за дисбаланса классов, ответы бинаризировались, а модели подгонялись. Анализ машинного обучения выполнялся в блокноте «DSND_Final_Analysis.ipynb».

Выбор и сокращение функций были реализованы с помощью алгоритмов рекурсивного исключения функций scikit-learn (RFE и RFECV). Настройка модели выполнялась с помощью их реализации поиска по сетке (GridSearchCV).

Наконец, точность, полнота и матрица путаницы были рассчитаны с использованием реализаций метрик классификации scikit-learn для каждого из них.

Уточнение

Начиная со всех признаков, выявленных при предварительном скрининге, выбор и сокращение признаков выполнялись с использованием рекурсивного исключения признаков (RFE). Во-первых, автоматический отбор был выполнен с использованием RFE с перекрестной проверкой (RFECV) с оценкой модели с помощью оценки F1.

Была предпринята попытка настройки модели с использованием метода поиска по сетке с перекрестной проверкой. В поиске по сетке использовались такие параметры, как параметр регуляризации логистической регрессии C, сбалансированное взвешивание по сравнению с отсутствием взвешивания классов, а также размер шага уменьшения признаков, используемый в RFECV. Впоследствии были найдены более экономичные модели с использованием ручного RFE с определенным набором функций.

Переобучение оценивали путем сравнения точности и отзыва между обучающим и тестовым наборами, проверяя значительное снижение производительности тестового набора. Оптимальной моделью для каждого исхода была наиболее экономная модель, обеспечивающая максимальную точность и полноту.

Промежуточные и окончательные модельные решения обсуждаются ниже.

Результаты

Полный процесс и код, используемые для разработки модели машинного обучения, описанные ниже, содержатся в записной книжке «DSND_Final_Analysis.ipynb».

Оценка и проверка модели

Модель доступа к EMR

Однократное кодирование 38 категориальных переменных и определение эталонной категории для каждой из них дало 106 потенциальных прогностических признаков. Подгонка многоклассовой модели логистической регрессии с автоматическим сокращением RFECV для всех трех результатов («Да», «Нет» и «Не знаю») привела к 64 признакам с относительно низкой точностью (0,622) и полнотой (0,555). на тестовом наборе. Параметры обучающего набора были схожими (0,666 и 0,598), что указывает на отсутствие явного переобучения.

Эта модель была настроена с помощью поиска по сетке по следующим параметрам:

  • Веса класса логистической регрессии: Сбалансированный, Нет
  • Параметр регуляризации логистической регрессии C: 0,01, 0,1, 1, 10, 100.
  • Количество функций, удаляемых на каждой итерации RFECV: 1, 3, 5

Результатом настройки стала модель с 81 функцией и минимальным улучшением точности (0,630) и полноты (0,567). Оптимальными параметрами были C = 0,01, сбалансированные веса классов и удаление одной функции на итерацию RFECV. И снова переоснащение не было очевидным (точность тренировочного набора 0,667, отзыв 0,602).

Чтобы потенциально улучшить соответствие, разреженная категория «Не знаю» была объединена с «Нет», создавая бинарный результат с лучшим балансом классов. Бинарная модель с параметрами по умолчанию и сокращением RFECV имела 52 функции, а также повышенную точность (0,702) и полноту (0,696). Значения тренировочного набора были 0,728 и 0,719, поэтому подозрения на переоснащение не возникло.

Настройка поиска по сетке с тем же пространством параметров, описанным выше, дала модель из 93 признаков с практически такой же точностью (0,706) и полнотой (0,700). Значения тренировочного набора были схожими (0,724 и 0,714). Оптимальными параметрами были C = 0,01, сбалансированные веса классов и удаление одной функции на итерацию RFECV.

Из-за увеличения количества признаков и минимального улучшения подгонки модель с поиском по сетке была отклонена, а исходная модель была взята в качестве отправной точки для ручного сокращения признаков с помощью RFE. Из этой модели с 52 функциями были подобраны сокращенные модели, выбранные RFE, с от 5 до 50 параметрами (с шагом в 5 параметров). На рисунке 16 показаны результаты ручной настройки RFE. Наилучшие точность (0,705) и полнота (0,699) были получены на 30 признаках, и эта модель была выбрана в качестве окончательной. Опять же, точность обучения и тестового набора (0,723) и полнота (0,715) были одинаковыми, что указывает на отсутствие явного переобучения.

Особенности, включенные в окончательную модель, приведены ниже.

Функции, связанные с более высокой вероятностью предоставления доступа к EMR:

Демографические и временные параметры:

  • «educa_4»: колледж или высшее образование (по сравнению со всеми другими уровнями)
  • «selfgender_2»: женщина (по сравнению с мужчиной или нет ответа)
  • «survey_cycle_3»: 2019 г. (по сравнению с 2018 г., 2020 г. до и после пандемии)
  • «survey_cycle_4»: 2020 г. до пандемии (по сравнению с 2018, 2019, 2020 гг. после пандемии)
  • «survey_cycle_5»: 2020 г. после пандемии (по сравнению с 2018, 2019, 2020 гг. до пандемии)
  • «agegrpb_4» : возраст 65–74 лет (по сравнению со всеми другими возрастными слоями; максимальный возраст ≥ 75 лет)

Связанные со здоровьем:

  • «regularprovider»: наличие регулярного HCP (по сравнению с отсутствием)
  • «healthinsurance»: иметь медицинскую страховку в той или иной форме (по сравнению с ее отсутствием).
  • «everhadcancer»: когда-либо диагностированный рак (против никогда)
  • «qualitycare_1»: Оцените качество медицинского обслуживания HCP на «отлично» (по сравнению с «не ходи», «очень хорошо», «хорошо», «удовлетворительно», «плохо»).
  • «qualitycare_2»: Оцените качество медицинского обслуживания HCP «очень хорошо» (по сравнению с «не ходи», «отлично», «хорошо», «удовлетворительно», «плохо»).
  • «freqgoprovider_2»: смотрите HCP 2 раза в год (по сравнению с 0, 1, 3, 4, 5–9 и ≥ 10).
  • «freqgoprovider_3»: смотрите HCP 3 раза в год (по сравнению с 0, 1, 2, 4, 5–9 и ≥ 10).
  • «freqgoprovider_4»: смотрите HCP 4 раза в год (по сравнению с 0, 1, 2, 3, 5–9 и ≥ 10).
  • «freqgoprovider_5»: смотрите HCP 5–9 раз в год (по сравнению с 0, 1, 2, 3, 4 и ≥ 10).
  • «freqgoprovider_6»: смотрите HCP ≥ 10 раз в год (по сравнению с 0, 1, 2, 3, 4 и 5–9).

Электронные устройства и Интернет:

  • «useinternet»: использовать Интернет для просмотра веб-страниц / электронной почты (вместо того, чтобы не делать этого).
  • «electronic_selfhealthinfo»: использовали электронные средства для поиска информации, связанной со здоровьем, за последние 12 месяцев (по сравнению с тем, что не использовали).
  • «whruseinet_pubvother_1»: использовать Интернет в общественном месте (например, в библиотеке) «часто» или «иногда» (по сравнению с никогда или не использовать Интернет)
  • «whruseinet_pubvother_2»: не пользоваться Интернетом в общественных местах (например, в библиотеке) (по сравнению с часто/иногда или не использовать Интернет)
  • «tablethealthwellnessapps_1»: иметь приложения для здоровья/здоровья на планшете (по сравнению с отсутствием или отсутствием планшета)
  • «tablet_discussionshcp_1»: использовать планшет в качестве вспомогательного средства для обсуждения с HCP (по сравнению с отсутствием или отсутствием планшета)

Функции, связанные с меньшей вероятностью предоставления доступа к EMR:

Демографические и временные параметры:

  • «highspanli»: языковая изоляция (высокая распространенность менее владеющих английским языком)
  • «raceethn5_4»: неиспаноязычные азиаты (по сравнению со всеми другими расовыми группами)
  • «censdiv_6» : Восточно-Южный Центральный переписной округ (KY, TN, MS, AL; по сравнению со всеми другими подразделениями)
  • «hhinc_1»: доход домохозяйства в самой низкой категории (‹ 20 тысяч долларов в год; по сравнению со всеми более высокими категориями и не сообщается)
  • «Семейное положение_6»: Холост (по сравнению со всеми другими категориями)

Связанные со здоровьем:

  • «healthins_pubpriv_2»: государственная страховка (Medicare/Medicaid) без страховки, предоставляемой работодателем (по сравнению с частной/предоставляемой работодателем или другой/отсутствием)
  • «avgdrinks_cat_5»: ≥ 150% количества напитков, которые CDC классифицирует как пьянство (М ≥ 23, Ж ≥ 13; другое: ≥ 18; это высшая категория; по сравнению со всеми более низкими категориями)
  • «ownabilitytakecarehealth_5»: «совсем нет» уверен в своей способности заботиться о здоровье (по сравнению с полностью, очень, отчасти или немного уверен)

Сила каждой переменной, измеряемая ее отношением шансов, показана на рисунке 17. На рисунке разделительная линия на уровне 1,0 разграничивает функции, связанные с доступом к ЭМИ (зеленым цветом; отношение шансов > 1,0), и те, которые не связаны с использованием ЭМИ. (выделено красным; отношение шансов ‹ 1,0).

Наличие страховки любого типа наиболее тесно связано с доступом к EMR, за которым следует оценка «отлично». Женский пол, высшее образование и пожилой возраст также имеют большой вес. Единственным хроническим заболеванием со значительным эффектом является рак в анамнезе, хотя более частые визиты к медицинскому работнику связаны с более высокой вероятностью того, что ему предложат доступ. Использование Интернета, а также использование его и электронных устройств в целях, связанных со здоровьем, также являются предикторами. Наконец, циклы опроса 2019–2020 гг. (по сравнению с 2018 г.) связаны с расширением доступа к ЭМИ, при этом наибольший вес приходится на допандемический период 2020 г., затем на постпандемический период 2020 г., затем на 2019 г., что указывает на наличие временного эффекта, хотя, возможно, и не линейного. один.

Напротив, «совсем неуверенность» в своей способности позаботиться о своем здоровье больше всего связана с тем, что не был предложен доступ к ЭМИ, за которым следует неиспаноязычная азиатская расовая идентичность. Быть в страте с самым низким доходом, быть одиноким, иметь только Medicare и / или Medicaid и проживать в восточно-южно-центральном районе переписи или в лингвистически изолированном районе, что также связано с ограниченным доступом. Никакого хронического заболевания не появляется, но очень сильное употребление алкоголя также предсказывает ограниченный доступ.

На рисунке 18 показаны 10 признаков с наибольшей разницей в распространенности между прогнозируемыми вероятностями ≥ 80% и ≤ 20% того, что вам будет предложен доступ к EMR. Красные столбцы указывают на особенности, более распространенные у пациентов с прогнозируемой вероятностью ≤ 20% того, что им будет предложен доступ к EMR, в то время как зеленые столбцы указывают на те, которые более распространены у пациентов с прогнозируемой вероятностью ≥ 80%.

Единственная переменная из 10 лучших, которая более распространена в группе с низкой вероятностью, - это принадлежность к страте с самым низким доходом домохозяйства (‹ 20 000 долларов в год).

В группе с высокой вероятностью пациенты, скорее всего, будут женщинами и имеют как минимум высшее образование. С медицинской точки зрения они с большей вероятностью будут иметь постоянного СОЗ и дадут самую высокую оценку (отлично) качеству обслуживания СОЗ. Остальные переменные связаны с доступом к Интернету и его использованием: они с большей вероятностью будут использовать Интернет, но менее вероятно, что через общедоступный доступ (например, библиотеку). Они с большей вероятностью будут использовать Интернет и такие устройства, как планшеты, для поиска медицинской информации, наблюдения за своим здоровьем и обсуждения со своим медицинским работником.

Модель для использования ЭМИ

Расширение 41 категориальной переменной с однократным кодированием и исключение эталонной категории привело к 109 потенциальным функциям для прогнозирования вероятности использования EMR за последние 12 месяцев. Категории: «Нет» (включая тех, у кого нет доступа к EMR), 1–2 раза, 3–5 раз, 6–9 раз и ≥ 10 раз.

Опять же, для прогнозирования всех пяти возможных результатов использовалась модель мультиклассовой логистической регрессии. Исходная модель RFECV + логистической регрессии для этого исхода имела 82 признака и удовлетворительную точность (0,607) с плохой полнотой (0,471). Значения тренировочного набора были схожими (0,627 и 0,512).

Снова была выполнена настройка поиска по сетке. Так как классы для этого результата явно несбалансированы, веса классов = None не предпринимались. Сетка была:

  • Параметр регуляризации логистической регрессии C: 1x10^-5, 1x10^-4, 1x10^-3, 0,01, 0,1, 1, 10, 100
  • Количество функций, удаляемых на каждой итерации RFECV: 1, 3, 5

Этот поиск по сетке дал модель с 99 параметрами с пониженной точностью (0,551) и немного улучшенной, но все же плохой полнотой (0,517). Оптимальными параметрами были C = 1x10^-5, и одна функция удалялась за каждую итерацию RFECV. Переобучение не было очевидным: точность тренировочного набора составила 0,554, а полнота — 0,521.

Как и в случае с доступом к EMR, считалось, что виноваты менее частые категории, вызывающие несбалансированные прогнозы. Поэтому была создана переменная бинарного результата, сравнивающая «Нет» с «Любым» использованием EMR.

Модель RFECV + логистической регрессии для этого результата показала значительно улучшенную точность (0,741) и полноту (0,724) с использованием 62 признаков. Значения тренировочного набора (0,752 и 0,740) не указывали на переоснащение.

Настройка поиска по сетке с использованием той же сетки параметров, что и выше, уменьшила пространство признаков до 54, но с более низкой точностью (0,709) и полнотой (0,689). Оптимальные параметры были такими же, как и для мультиклассовой модели. Производительность тренировочного набора (точность 0,714, полнота 0,703) не указывала на переоснащение.

Основываясь на этих результатах, модель с 62 признаками использовалась в качестве отправной точки для ручной настройки RFE. Были созданы модели, содержащие от 5 до 60 признаков (опять же с шагом в 5 признаков), и их оценки сравнивались.

На рисунке 19 показаны результаты ручной настройки RFE. Оптимальная точность (0,742) и полнота (0,724) были получены как для 45, так и для 50 признаков; модель с 45 функциями была выбрана как наиболее экономная. Как и ранее, для обучающей выборки наблюдались минимальные различия в точности (0,749) и отзыве (0,736), что уменьшало вероятность переобучения.

Функции, выбранные для этой модели, перечислены ниже.

Функции, связанные с более высокой вероятностью использования ЭМИ:

Демографические и временные параметры:

  • «educa_2»: среднее образование (по сравнению со всеми другими уровнями; самый низкий/ссылка — ‹ средняя школа).
  • «educa_3»: некоторое высшее образование (по сравнению со всеми другими уровнями)
  • «educa_4»: колледж или высшее образование (по сравнению со всеми другими уровнями)
  • «selfgender_2»: женщина (по сравнению с мужчиной или нет ответа)
  • «censdiv_9» : Тихоокеанское переписное подразделение (CA, OR, WA, AK, HI; по сравнению со всеми другими подразделениями)
  • «survey_cycle_3»: 2019 г. (по сравнению с 2018 г., 2020 г. до и после пандемии)
  • «survey_cycle_4»: 2020 г. до пандемии (по сравнению с 2018, 2019, 2020 гг. после пандемии)
  • «survey_cycle_5»: 2020 г. после пандемии (по сравнению с 2018, 2019, 2020 гг. до пандемии)

Связанные со здоровьем:

  • «regularprovider»: наличие регулярного HCP (по сравнению с отсутствием)
  • «healthinsurance»: иметь медицинскую страховку в той или иной форме (по сравнению с ее отсутствием).
  • «medconditions_diabetes»: когда-либо диагностированный диабет (по сравнению с никогда)
  • «everhadcancer»: когда-либо диагностированный рак (против никогда)
  • «qualitycare_1»: Оцените качество медицинского обслуживания HCP на «отлично» (по сравнению с «не ходи», «очень хорошо», «хорошо», «удовлетворительно», «плохо»).
  • «qualitycare_2»: Оцените качество медицинского обслуживания HCP «очень хорошо» (по сравнению с «не ходи», «отлично», «хорошо», «удовлетворительно», «плохо»).
  • «qualitycare_3»: Оцените качество медицинского обслуживания HCP на «хорошо» (по сравнению с «не ходи», «отлично», «очень хорошо», «удовлетворительно», «плохо»).
  • «qualitycare_4»: Оцените качество медицинского обслуживания HCP на «удовлетворительно» (по сравнению с «не ходи», «отлично», «очень хорошо», «хорошо», «плохо»).
  • «qualitycare_5»: Оцените качество медицинского обслуживания HCP как «плохое» (по сравнению с «не ходи», «отлично», «очень хорошо», «хорошо», «удовлетворительно»).
  • «freqgoprovider_3»: смотрите HCP 3 раза в год (по сравнению с 0, 1, 2, 4, 5–9 и ≥ 10).
  • «freqgoprovider_4»: смотрите HCP 4 раза в год (по сравнению с 0, 1, 2, 3, 5–9 и ≥ 10).
  • «freqgoprovider_5»: смотрите HCP 5–9 раз в год (по сравнению с 0, 1, 2, 3, 4 и ≥ 10).
  • «freqgoprovider_6»: смотрите HCP ≥ 10 раз в год (по сравнению с 0, 1, 2, 3, 4 и 5–9).
  • «smokestat_2»: Бывший курильщик (по сравнению с нынешним, никогда)
  • «smokestat_3»: Никогда не курил (по сравнению с текущим, бывшим)

Электронные устройства и Интернет:

  • «useinternet»: использовать Интернет для просмотра веб-страниц / электронной почты (вместо того, чтобы не делать этого).
  • «electronic_selfhealthinfo»: использовали электронные средства для поиска информации, связанной со здоровьем, за последние 12 месяцев (по сравнению с тем, что не использовали).
  • «intrsn_visitedsocnet»: использовал Интернет для посещения социальной сети (по сравнению с отсутствием или отказом от просмотра).
  • «whruseinet_pubvother_1»: использовать Интернет в общественном месте (например, в библиотеке) «часто» или «иногда» (по сравнению с никогда или не использовать Интернет)
  • «whruseinet_pubvother_2»: не пользоваться Интернетом в общественных местах (например, в библиотеке) (по сравнению с часто/иногда или не использовать Интернет)
  • «tablethealthwellnessapps_1»: иметь приложения для здоровья/здоровья на планшете (по сравнению с отсутствием или отсутствием планшета)
  • «tablet_discussionshcp_1»: использовать планшет в качестве вспомогательного средства для обсуждения с HCP (по сравнению с отсутствием или отсутствием планшета)
  • «havedevice_cat_5» : иметь несколько электронных устройств (сотовый телефон, обычный телефон, планшет; против ни одного или одного из них)
  • «internet_broadbnd_1»: доступ к Интернету через широкополосное соединение (по сравнению с отсутствием или отсутствием Интернета).

Функции, связанные с меньшей вероятностью использования ЭМИ:

Демографические и временные параметры:

  • «highspanli»: языковая изоляция (высокая распространенность менее владеющих английским языком)
  • «raceethn5_3»: латиноамериканцы (по сравнению со всеми другими расовыми группами)
  • «censdiv_2»: подразделение переписи Средней Атлантики (Нью-Джерси, Нью-Йорк, Пенсильвания; по сравнению со всеми другими подразделениями)
  • «censdiv_6»: восточно-южный центральный переписной округ (KY, TN, MS, AL; по сравнению со всеми другими подразделениями)
  • «censdiv_8» : Подразделение горной переписи (AZ, CO, ID, NM, MT, UT, NV, WY; по сравнению со всеми другими подразделениями)
  • «nchsurcode2013_4»: Метрополитен: классификация малых городских и сельских районов (4-е место среди 6 по сравнению со всеми другими классификациями)
  • «nchsurcode2013_5»: вне мегаполиса: классификация микрополитических городов и сельских районов (5-е место из 6 наименьших; по сравнению со всеми другими классификациями)
  • «hhinc_1»: доход домохозяйства в самой низкой категории (‹ 20 тысяч долларов в год; по сравнению со всеми более высокими категориями и не сообщается)
  • «hhinc_2»: доход семьи во второй самой низкой категории (20–34,99 тыс. долл. США в год; по сравнению со всеми другими категориями и не сообщается)
  • «Семейное положение_5» : Разделены (по сравнению со всеми другими категориями)

Связанные со здоровьем:

  • «phq4_cat_4»: тяжелый психологический дистресс на основе оценки PHQ-4 (по сравнению с отсутствием, легким или умеренным)
  • «avgdrinks_cat_4»: от ≥ 100% до ‹ 150% количества напитков, которые CDC классифицирует как пьянство (М: 15–22, Ж: 8–12; пропущено: 12–17; это вторая по величине категория; по сравнению с другими категориями)
  • «ownabilitytakecarehealth_5»: «совсем нет» уверен в своей способности заботиться о здоровье (по сравнению с полностью, очень, отчасти или немного уверен)

Отношения шансов для каждой переменной показаны на рисунке 20, где снова зеленые столбцы (отношение шансов > 1,0) связаны с использованием ЭМИ, а красные (отношение шансов ≥ 1,0) — нет.

Здесь оценка медицинской помощи «отлично» больше всего связана с использованием EMR, за которым следует получение диплома колледжа или выше. Категории рейтинга HCP-care связаны с использованием EMR в разной степени (по сравнению с категорией по умолчанию без рейтинга). Застрахованность и женщина, наличие регулярного медицинского работника и более высокая частота посещений медицинского работника — все это появляется снова, как и рак в анамнезе. Дополнительное хроническое заболевание, диабет, также является предиктором, в то время как факт некурения в настоящее время также включен. Циклы опроса отображаются в том же порядке, что и для доступа к EMR. Более низкие уровни образования также присутствуют с меньшим влиянием (по сравнению с отсутствием аттестата об окончании средней школы). Факторы, связанные с электронными устройствами и Интернетом, аналогичны факторам, связанным с доступом к EMR. Наконец, проживание в Тихоокеанском районе переписи предсказывает более высокую вероятность использования ЭМИ.

Опять же, как и в модели доступа к EMR, проживающие в восточно-южно-центральном районе переписи и в лингвистически изолированной области больше всего связаны с тем, что не использовали EMR. Появляются низкий доход домохозяйства и плохая оценка способности к самообслуживанию, а также чрезмерное употребление алкоголя. Дополнительные подразделения переписи (горные и среднеатлантические), отсутствующие в модели доступа EMR, предсказывают более низкую вероятность использования, как и проживание в более сельских районах, разлучение и наличие балла PHQ-4, соответствующего серьезному психологическому дистрессу.

Рисунок 21 иллюстрирует 10 признаков с наибольшей разницей в распространенности между прогнозируемыми вероятностями ≥ 80% и ≤ 20% использования EMR. Красные столбцы снова указывают на более высокую распространенность среди тех, у кого прогнозируемая вероятность ≤ 20%, а зеленые столбцы — у тех, у кого прогнозируемая вероятность использования EMR ≥ 80%.

Все 10 основных признаков более распространены в группе с высокой вероятностью. В отличие от модели доступа к ЭМИ, гендерных различий нет. Точно так же эти пациенты, скорее всего, имеют как минимум высшее образование. С медицинской точки зрения, у них снова больше шансов иметь обычного врача-специалиста. Точно так же остальные переменные связаны с доступом к интернету и его использованием: они с большей вероятностью пользуются интернетом и имеют широкополосный доступ в интернет. Они реже выходят в Интернет через общедоступные ресурсы (например, библиотеку). Они чаще используют Интернет для доступа к сайтам социальных сетей. Они, как правило, имеют несколько портативных электронных устройств, чтобы искать информацию о здоровье в Интернете, следить за своим здоровьем с помощью настольных приложений и использовать планшет в обсуждениях со своим врачом.

Обоснование

Модели машинного обучения смогли определить функции, связанные с доступом к EMR, используя данные из общедоступных наборов данных правительства США.

Логистическая регрессия была выбрана по сравнению с другими моделями машинного обучения, поскольку целью исследования было выяснить влияние каждой переменной-предиктора. Логистическая регрессия предоставляет легко интерпретируемые коэффициенты и отношения шансов для каждой переменной, а также окончательную модель, которую можно легко развернуть, например. в электронной таблице.

Первоначальные многоклассовые модели для обоих результатов продемонстрировали низкую точность и полноту, не улучшенные путем настройки с поиском по сетке параметров. Это произошло из-за дисбаланса классов, когда на некоторые категории результатов было получено мало ответов, что привело к плохому соответствию этих категорий. Таким образом, несколько результатов были объединены в бинарные переменные «Да»/«Нет», что уменьшило дисбаланс классов.

Дихотомия обоих результатов значительно улучшила точность и запоминание. Хотя это приводит к некоторой потере детализации результатов (например, к невозможности дифференцировать характеристики тех, кто чаще и реже использует ЭМИ), плохое соответствие многоклассовых моделей делает их гораздо менее полезными для прогнозирования.

Настройка поиска по сетке не улучшила соответствие бинарных моделей. В логистической регрессии параметр регуляризации C является единственной настраиваемой переменной модели, и значение по умолчанию 1,0 обеспечивает хорошее или лучшее соответствие, чем более низкие значения, полученные с помощью поиска по сетке. Вероятно, это связано с тем, что количество ответов на опрос (5490 в обучающем наборе и 2328 в тестовом наборе) было значительно больше, чем количество признаков (106 и 109), так что переоснащение не было серьезной проблемой. Отсутствие переобучения было подтверждено минимальными наблюдаемыми различиями в точности и полноте между обучающей и тестовой выборками для всех моделей.

Кроме того, для исходной модели использовались сбалансированные веса классов, и они работали лучше, чем без весов классов. Это, вероятно, указывает на то, что сбалансированные веса помогли компенсировать любой дисбаланс классов результатов.

Наконец, количество функций, удаляемых RFECV по умолчанию, было скорректировано. Удаление одной функции за итерацию оказалось лучше, чем удаление трех или пяти, что указывает на то, что модель лучше переносила небольшие изменения, чем большие.

Из-за большого количества прогностических переменных (106 для доступа к EMR и 109 для использования EMR) для сокращения пространства признаков использовалось рекурсивное исключение признаков. Автоматическое сокращение функций с использованием оценки F1 позволило сократить количество функций для бинарных моделей до 52 и 62 функций для доступа и использования EMR. Однако, начав с этих моделей и используя ручное RFE, пространство признаков может быть уменьшено до 30 и 45 признаков соответственно без потери точности и полноты. Эти более экономичные модели были выбраны в качестве окончательных для определения функций, наиболее связанных с доступом и использованием ЭМИ.

Респонденты опроса, которым с большей вероятностью предложат доступ к EMR их медицинский работник или страховая компания, как правило, были более образованными, женщинами и более активно использовали электронные ресурсы для получения медицинской информации. Эти характеристики могут указывать на некоторую предвзятость в отношении предоставления доступа к EMR тем, кто, скорее всего, будет их использовать. Эту возможность необходимо дополнительно изучить, чтобы повысить равенство доступа к ЭМИ.

Они также, как правило, чаще посещали своих медицинских работников и были в преклонном возрасте, что, возможно, свидетельствовало о более сложных медицинских потребностях. С точки зрения хронических состояний, только наличие рака предсказывало более высокую вероятность того, что доступ будет предложен. Следует дополнительно изучить вопрос о необходимости более активного предоставления доступа пациентам с другими хроническими заболеваниями.

Наконец, имел место временной эффект: доступ увеличивался по мере цикла опроса. Однако переменная после пандемии 2020 г. оказала меньшее влияние, чем переменная до пандемии 2020 г., поэтому не было очевидного скачка доступности ЭМИ в (по общему признанию, ограниченном) постпандемическом периоде, для которого имеются данные.

И наоборот, те, кому реже предлагали доступ к EMR, имели самый низкий уровень образования и годового дохода, с большей вероятностью проживали в восточно-южно-центральном районе переписи и в лингвистически изолированных районах, как правило, были одинокими, с большей вероятностью пользовались государственным медицинским страхованием и злоупотреблять алкоголем и иметь очень низкую уверенность в своей способности управлять своим здоровьем. Большинство этих переменных указывают на то, что пациенты, как правило, реже имеют доступ к ресурсам, включая здравоохранение. Эти пациенты могут иметь меньше контактов со своими врачами здравоохранения или могут быть предварительно оценены их врачами как плохие кандидаты на доступ к ЭМИ. Языковая изоляция указывает на то, что они могут плохо говорить по-английски и не иметь возможности хорошо общаться с медицинскими работниками. Этим пациентам потенциально могут быть полезны образовательные инициативы, предпочтительно на их родном языке, пропагандирующие ценность ЭМИ и предлагающие инструкции по их использованию. Медицинские работники также потенциально могут не знать о бессознательных предубеждениях в отношении этих пациентов и, возможно, могут извлечь выгоду из стимулов для расширения доступа к EMR для недостаточно обслуживаемых пациентов.

Точно так же те, кто с большей вероятностью будет использовать ЭМИ, также, как правило, являются женщинами, более образованными, более частыми посетителями своих медицинских работников, а также более частыми пользователями электронных устройств и потребителями информации, связанной со здоровьем. С точки зрения хронических состояний, как диабет, так и рак в анамнезе предсказывали более широкое использование ЭМИ.

Временной эффект был таким же, как и для доступа к EMR, с увеличением использования с каждым циклом опроса, но с менее влиятельным постпандемическим периодом, чем до пандемии 2020 года.

Опять же, похоже, что пациенты, более грамотные в электронном и медицинском отношении, с большей вероятностью используют EMR. Соответственно, лица с более высокой частотой посещений медицинских работников и хроническими заболеваниями также с большей вероятностью будут использовать EMR. Эти пациенты могут иметь сложную историю болезни и иметь несколько медицинских работников, и им должно быть полезно, чтобы их информация была более портативной в электронной форме, а также от доступа к их данным для обсуждения с медицинскими работниками или членами семьи.

Также как и те, кому с меньшей вероятностью будет предложен доступ к EMR, те, кто, по прогнозам, с меньшей вероятностью будет использовать EMR, как правило, относятся к категории с самым низким доходом, проживают в восточно-южно-центральном районе переписи и в лингвистически изолированных районах, оценивают свою способность управлять своими плохо ухаживают за собой и, как правило, много пьют. Это сходство может быть связано с тем, что те, кому не был предложен доступ к EMR, также не использовали EMR.

Кроме того, эти пациенты, как правило, прибывают из более сельских районов, относятся ко второй группе с самым низким доходом, идентифицируют себя как латиноамериканцы и соответствуют критериям PHQ-4 тяжелого психологического расстройства. Эти показатели снова определяют группу пациентов с высоким риском, которые могут иметь меньший доступ к ресурсам, особенно к здравоохранению. Тяжелый психологический дистресс и низкая уверенность в своих способностях, связанных со здоровьем, могут указывать на тех, кто нуждается в дополнительной поддержке/помощи для управления своими делами, связанными со здоровьем. Как указано выше, эти пациенты могут извлечь выгоду из соответствующей языку, целенаправленной работы и обучения, чтобы подчеркнуть доступность и преимущества EMR.

Вывод

Отражение

В этом анализе использовались трехлетние данные опроса HINTS, проведенного Национальным институтом рака, для анализа характеристик пациентов, связанных с доступом к ЭМИ и их использованием.

После предварительного скрининга и анализа для двух переменных исхода были созданы модели многомерной логистической регрессии. Из-за редкости нескольких категорий результатов в обеих переменных модели с несколькими классами показали плохую прогностическую эффективность, измеряемую точностью и полнотой. Дихотомия результатов привела к лучшему балансу классов и повышению точности и отзыва.

Окончательная модель, предсказывающая доступ к EMR, имела 30 функций и давала точность и полноту 0,705 и 0,699 на тестовом наборе.

Демографическими особенностями, связанными с повышенной прогнозируемой вероятностью доступа к ЭМИ, были женский пол, высшее образование и умеренно пожилой возраст (65–74 года). Был также эффект года (цикл опроса) и пандемии COVID-19. Демографические факторы, связанные с пониженной вероятностью доступа, включали незамужние, низкий доход, неиспаноязычную азиатскую расу, языковую изоляцию и проживание в Восточно-Южно-Центральном районе переписи.

Характеристики, связанные со здоровьем, связанные с повышенным прогнозируемым доступом к EMR, включали наличие постоянного медицинского работника, чье обслуживание было более высоко оценено, посещение этого медицинского работника два или более раз в год, наличие медицинской страховки и наличие рака в анамнезе. Особенности в этой категории, связанные с меньшей вероятностью доступа, включали только государственное страхование (Medicare и/или Medicaid), очень пьянство и низкую уверенность в своих способностях управлять вопросами здравоохранения.

Факторами, связанными с электронными устройствами и Интернетом, предсказавшими повышение вероятности доступа, были использование Интернета, более широкое использование электронных устройств и Интернета в целях, связанных со здоровьем, посещение сайтов социальных сетей и степень использования общедоступного доступа в Интернет. Ни одна переменная в этой категории не предсказала сокращение доступа.

Сила каждого признака была исследована через его отношение шансов. Особенностями, наиболее тесно связанными с расширенным доступом, были наличие медицинской страховки и высокая оценка медицинской помощи. Те, кто наиболее тесно связан с уменьшением вероятности доступа, были низкой уверенностью в своей способности управлять вопросами здравоохранения и неиспаноязычной азиатской расой.

Наконец, были оценены функции с наибольшей разницей в распространенности между теми, у которых прогнозируемая вероятность ≥ 80% и ≤ 20% того, что будет предложен доступ к EMR. Из первой десятки более низкий доход был более распространенным в группе с низкой вероятностью, в то время как женский пол, более высокий уровень образования, наличие регулярного медицинского работника, более высокий рейтинг медицинского работника и несколько переменных, связанных с более частым использованием Интернета/устройств и использованием в медицинских целях. цели были более распространены в группе высокой вероятности.

Окончательная модель, предсказывающая использование ЭМИ, имела 45 признаков, точность 0,742 и полноту 0,724.

Демографическими особенностями, связанными с повышенной прогнозируемой вероятностью использования ЭМИ, были женский пол, любое образование ≥ среднего образования и проживание в районе переписи населения Тихого океана (Калифорния, Орегон, Вашингтон, AK, HI). Снова был эффект года (цикл опроса) и пандемии COVID-19. Демографические данные, связанные с пониженной вероятностью использования, включали разделение, более низкий доход, латиноамериканскую расу, языковую изоляцию, проживание в районах Средней Атлантики, Восточно-Южной Центральной или Горной переписи и проживание в более сельской местности.

Характеристики, связанные со здоровьем, связанные с более частым прогнозируемым использованием ЭМИ, включали в себя наличие регулярного медицинского работника, посещение медицинского работника ≥ 3 раз в год, любой рейтинг медицинской помощи (кроме отсутствия/не посещения медицинского работника), наличие медицинской страховки, диабет или рак в анамнезе, и будучи текущим некурящим. Особенности в этой категории, связанные с меньшей вероятностью употребления, включали злоупотребление алкоголем, тяжелый психологический дистресс (самый высокий балл PHQ-4) и низкую уверенность в своей способности управлять делами, связанными со здоровьем.

Факторы, связанные с электронными устройствами и Интернетом, предсказывающие повышенную вероятность использования ЭМИ, включали использование Интернета, широкополосный доступ, наличие нескольких электронных устройств, более широкое использование устройств и Интернета в целях, связанных со здоровьем, а также степень использования общественного доступа в Интернет. Как и ранее, ни одна переменная в этой категории не предсказывала сокращение использования.

При изучении отношения шансов «отличная» оценка медицинскому обслуживанию и степень бакалавра ≥ были наиболее тесно связаны с повышенной вероятностью использования EMR. Те, кто в наибольшей степени ассоциировался с пониженной вероятностью доступа, проживали в восточно-южно-центральном районе переписи и в лингвистически изолированном районе.

Наконец, были оценены различия в распространенности между теми, у кого прогнозируемая вероятность ≥ 80% и ≤ 20% использования EMR. Все первые десять были более распространены среди тех, кто, по прогнозам, с большей вероятностью будет использовать ЭМИ. За исключением образования ≥ высшего образования и наличия регулярного медицинского работника, все они были связаны с расширением доступа/использования Интернета и электронных устройств как в общих целях, так и в целях, связанных со здоровьем.

Аспект этого проекта, который мне показался интересным, заключался в том, что такой большой, многофункциональный набор данных был общедоступным, и что эти данные собираются ежегодно. Я никогда не слышал об опросе СОВЕТЫ до того, как начал искать подходящие наборы данных для использования в этом проекте. Для будущих проектов я обязательно изучу другие правительственные источники данных, такие как этот. Мне также любопытно, используются ли эти данные в решениях по политике здравоохранения. На странице СОВЕТЫ указано, что целью сбора данных является:

Исследователи опроса используют данные, чтобы понять, как взрослые в возрасте 18 лет и старше используют различные каналы связи, включая Интернет, для получения жизненно важной медицинской информации для себя и своих близких. Разработчики программ используют данные для преодоления барьеров на пути использования медицинской информации среди населения и получения данных, необходимых для создания более эффективных коммуникационных стратегий. Наконец, социологи используют данные для уточнения своих теорий информирования о здоровье в век информации и предлагают новые и лучшие рекомендации по снижению бремени рака среди населения.

Однако они не упоминают конкретные инициативы или политику, основанные на результатах опроса. Было бы интересно увидеть более подробную информацию об этом аспекте. Последнее упомянутое собрание пользователей состоялось в 2014 году. Было бы прискорбно, если бы эти данные собирались просто для того, чтобы иметь их, а не использовались для достижения целей расширения доступа к здравоохранению.

Что мне показалось самым сложным в этом проекте, так это (я полагаю, универсальная жалоба специалиста по данным) обработка данных и эффективное сокращение функций. Даже при наличии кодовых книг было трудно определить взаимосвязь между некоторыми связанными полями. Меня также удивило, что так много признаков имели значительную одномерную связь с результатами, что по большей части сводило на нет мою цель — попытаться сократить переменные до создания многомерных моделей. Я пришел к выводу, что это трудности использования набора данных, который никто не собирал самостоятельно и который не был специально создан для заданного вопроса.

Улучшение

Ограничения

Набор данных был ограничен полями, доступными из HINTS, который не предназначен специально для исследования использования ЭМИ.

Хотя опрос HINTS предназначен для репрезентативности населения США, в областях, представляющих интерес для этого исследования, было изрядное количество отсутствующих записей, удаление которых, возможно, изменило состав выборки, сделав ее менее репрезентативной.

В то время как были доступны данные о нескольких хронических состояниях пациентов в анамнезе, не было данных о сложности общего состояния здоровья пациентов или их сопутствующих заболеваний. Эти факторы могут увеличить потребность в многократных посещениях медицинских работников, а также в посещениях нескольких разных медицинских работников, что увеличит потребность в доступе к пригодному для использования портативному ЭМИ.

Точно так же исследование не дает ответа на вопрос, сколько разных медицинских работников посещает пациент. У него также нет данных о неотложной помощи, неотложной или стационарной медицинской помощи. Потребность во многих из них может указывать на пациентов, которым требуется более пристальное наблюдение, которые могут иметь доступ к нескольким источникам здравоохранения и которым может быть полезно иметь доступ к своим многочисленным медицинским записям.

Наконец, поскольку опрос проводится в период с января по апрель каждого года, постпандемические данные за 2020 год охватывают лишь ограниченный период времени.

Улучшение

Дальнейшие исследования могли бы детально оценить барьеры, с которыми сталкиваются медицинские работники при обучении пациентов и распространении доступа к EMR. Не хватает ли в кабинетах медицинских работников ресурсов для обсуждения и обучения пациентов использованию ЭМИ, что может привести к предвзятости в отношении предложения их в первую очередь «вероятным последователям», которым требуется меньшая помощь? Точно так же, может ли быть отсутствие интереса к управлению аспектами EMR, с которыми сталкиваются пациенты, и его возможное увеличение нагрузки на персонал HCP?

Еще одна область для дополнительных исследований может включать изучение причин, по которым пациенты с доступом к EMR не используют их. Вопросы, связанные с этим, являются частью HINTS, но этот дополнительный анализ выходит за рамки этого проекта. Возможно, некоторые пациенты предпочитают личное общение при обсуждении сложных вопросов, связанных со здоровьем, или, возможно, они считают, что данные в EMR бесполезны вне контекста их визита. Также могут возникнуть проблемы с конфиденциальностью при доступе к таким конфиденциальным данным в электронном виде.

Кроме того, было бы информативно оценить восприятие пациентом и медицинским работником плюсов и минусов различных электронных медицинских карт, особенно с точки зрения их удобства использования. Со стороны пациента было бы полезно знать, имеют ли данные ЭМР какую-либо удобную для пациента интерпретацию, поскольку необработанные диагностические тесты или результаты лабораторных исследований в большинстве случаев не могут быть истолкованы лицами, не имеющими медицинского образования.

Хотя интероперабельность является очень конкретной целью инициативы по интероперабельности Закона HITECH [1], было бы также полезно изучить, насколько на самом деле интероперабельны различные системы EMR, особенно с точки зрения конечного пользователя. Это будет особенно актуально для пациентов с несколькими поставщиками услуг, которые могут использовать разные платформы EMR.

Наконец, в постпандемический период не наблюдалось явного увеличения доступа к ЭМИ или их использования по сравнению с допандемическим 2020 годом. Однако изучаемый постпандемический период был относительно коротким, и дальнейшее наблюдение может лучше выяснить, не это уникальное обстоятельство повлияло на доступ и использование ЭМИ.

использованная литература

  1. Центры по контролю и профилактике заболеваний, Национальная программа раковых регистров: значимое использование электронных медицинских карт. https://www.cdc.gov/cancer/npcr/meaningful_use.htm. По состоянию на 5 августа 2021 г.
  2. Лафата Дж. Э., Миллер К. А., Шайрес Д. А., Дайер К., Ратлифф С. М., Шрайбер М. Принятие пациентами электронных порталов для пациентов и доступ к ним. Am J Manag Care 2018; 24(11):е352-е357.
  3. Джамб М., Кавано К.Л., Биан А., Чен Г., Икизлер Т.А., Унру М.Л., Абдель-Кадер К. Различия в использовании портала электронных медицинских карт пациентов в нефрологических клиниках. Clin J Am Soc Nephrol 2015;10(11):2013–22.
  4. База данных инструментов измерения для социальных наук: Анкета здоровья пациента-4 (PHQ-4). https://www.midss.org/content/patient-health-questionnaire-4-phq-4. По состоянию на 7 августа 2021 г.
  5. Центры по контролю и профилактике заболеваний: Физическая активность: Сколько физической активности нужно взрослым? https://www.cdc.gov/physicalactivity/basics/adults/index.htm. По состоянию на 10 августа 2021 г.
  6. Центры по контролю и профилактике заболеваний: Achohol и общественное здравоохранение: употребление алкоголя и ваше здоровье. https://www.cdc.gov/alcohol/fact-sheets/alcohol-use.htm. По состоянию на 10 августа 2021 г.