Дорогие друзья!

Добро пожаловать в прогнозирование риска инсульта! Ваши опытные гиды, 👋 Пари Катьял и 👋 мое скромное я, здесь, чтобы провести вас через набор данных EHR с целью представить вам ключевые факторы, которые могут подвергнуть человека риску инсульта. Итак, давайте погрузимся и раскроем идеи, которые могут помочь спасти жизни!

Прогнозирование и профилактика инсульта имеют решающее значение для снижения уровня смертности и улучшения результатов лечения пациентов. Машинное обучение — это мощный инструмент, который может помочь медицинским работникам прогнозировать вероятность инсульта и принимать соответствующие меры для его предотвращения. Существует необходимость в улучшении ведения и ухода за пациентами из-за неблагоприятных последствий инсульта. Благодаря более широкому использованию машинного обучения в области медицины медицинские работники могут создавать возможности для улучшения ухода за пациентами и управления ими. Собирая информацию из больших баз данных посредством исследования данных, мы можем исследовать отношения между переменными посредством интеллектуального анализа данных. В этом случае мы использовали два из медицинских карт пациента (EHR) для создания моделей, которые, в свою очередь, помогают с ранней диагностикой. Используя различные методы, в том числе прогностические модели и кластеризацию, мы оцениваем, какие факторы риска из тех, что записаны в электронной медицинской карте, могут помочь нам создать точную модель для прогнозирования инсульта. Медицинские работники могут выявлять факторы риска и разрабатывать персонализированные планы лечения пациентов, используя методы машинного обучения, такие как исследование данных, интеллектуальный анализ данных, кластеризация и прогнозное моделирование. Профилактика посредством изменения образа жизни и приема лекарств может значительно снизить вероятность инсульта.

1) ЦЕЛЬ

Целью этого исследования является разработка модели машинного обучения, которая точно прогнозирует возникновение инсульта у людей, используя их электронные медицинские карты (EHR). Кроме того, это исследование направлено на выявление ключевых факторов риска инсульта и предложение профилактических мер, которые могут быть приняты для уменьшения или отсрочки начала инсульта.

2) ГИПОТЕЗА

Наша гипотеза заключается в том, что, используя методы машинного обучения для анализа электронных медицинских карт, мы можем определить ключевые факторы риска, связанные с повышенной вероятностью инсульта. Мы считаем, что, выявляя и устраняя эти факторы риска, медицинские работники могут разработать персонализированные планы лечения для пациентов, что приведет к улучшению результатов лечения и снижению частоты инсульта.

👴Возраст: мы предполагаем, что пожилые возрастные группы, вероятно, будут иметь более высокий риск инсульта, поскольку распространенность медицинских инцидентов обычно увеличивается с возрастом. Возраст является основным фактором при анализе таких заболеваний, как инсульт, наряду с другими переменными, такими как болезни сердца, ИМТ, гипертония и уровень глюкозы. Учитывая, что возраст влияет не только на вероятность возникновения инсульта, но и на вероятность других переменных в ЭУЗ человека, это важный фактор, который следует учитывать.

⚠️Гипертония: гипертония может способствовать тромбообразованию и повреждению артерий, что со временем может увеличить вероятность инсульта. Из-за обширного воздействия на артерии, кровеносные сосуды и свертываемость мы считаем, что гипертония будет ведущим фактором риска.

💔Болезни сердца: распространенные сердечные заболевания часто могут повышать вероятность инсульта из-за повреждения артерий и нарушения кровотока. Учитывая серьезную природу сердечных заболеваний и их влияние на факторы, связанные с инсультом, мы считаем, что сердечные заболевания также будут ведущим фактором риска.

🍬Средний уровень глюкозы: длительный высокий уровень глюкозы может вызвать повреждение артерий, тем самым увеличивая вероятность инсульта. Из-за его прямой связи с инсультами мы считаем, что средний уровень глюкозы может быть еще одним ведущим фактором риска.

⚖️ИМТ: хотя ИМТ напрямую не влияет на вероятность инсульта, он влияет на вероятность сердечных заболеваний и повышенный уровень глюкозы. Следовательно, мы считаем ИМТ вторичным фактором риска, а не ведущим.

🚬Статус курения: люди, которые курят или курили ранее, подвержены риску сердечно-сосудистых заболеваний от умеренного до высокого из-за образования тромбов и изменений состава крови, связанных с курением. Поскольку мы считаем сердечно-сосудистые заболевания ведущим фактором риска, курение также может быть значительным, хотя и косвенным, фактором риска.

💼Тип работы: род занятий может способствовать повышению уровня стресса, что может повлиять на уровень глюкозы. Хотя может существовать некоторая корреляция между типом работы и вероятностью инсульта из-за влияния на уровень глюкозы, мы не ожидаем, что эта связь будет значительной.

💍Семейное положение: Как и на работе, личные отношения могут вызывать стресс, что приводит к повышению уровня глюкозы и потенциальной связи с вероятностью инсульта. Однако мы не ожидаем, что эта взаимосвязь будет достаточно существенной, чтобы считаться значимым предиктором.

3) ПОИСК ДАННЫХ

Набор данных, использованный в этом исследовании, был получен от Kaggle и включает электронные медицинские записи, опубликованные McKinsey & Company.

4) ОБЗОР ДАННЫХ

5) ПРОВЕРКА И ОЧИСТКА ДАННЫХ

Проверка данных и очистка были выполнены, чтобы гарантировать, что набор данных был точным и свободным от ошибок. Это включало обработку пропущенных значений и устранение любых несоответствий. Набор данных также был несбалансированным, что приводило к искаженным результатам, поэтому мы занизили выборку набора данных, чтобы сделать оба наших результата переменной y равными. Мы также преобразовали категориальные переменные в двоичные или порядковые переменные.

6) Исследовательский анализ данных (EDA)

Первоначальный анализ данных показывает, что средний возраст пациентов составляет 43 года, а их средний ИМТ составляет 28,9, что превышает средний показатель по стране (26,5) и попадает в диапазон избыточного веса (ИМТ 25–30). Значительная часть, 65%, состоит или состояла в браке, и большинство из них имеют работу (только 0,4% безработных и 14% - дети). Кроме того, 9% испытывают значительный психологический стресс, о чем свидетельствует артериальная гипертензия.

Наш анализ корреляции и тепловой карты показал, что возраст, гипертония, болезни сердца и средний уровень глюкозы продемонстрировали самые сильные линейные корреляции с частотой инсульта. Более того, тепловая карта позволила нам наблюдать взаимосвязи между всеми переменными. Этот анализ дал ценную информацию об основных факторах риска, а именно о возрасте, гипертонии, сердечных заболеваниях и среднем уровне глюкозы.

Чтобы углубиться, мы стремились определить основные причины этих факторов риска и изучить меры профилактики инсульта. Исследования показывают, что ИМТ способствует 65–75% риска гипертонии, в то время как курение и высокий ИМТ вместе могут увеличить риск сердечных заболеваний на 25–30%. Кроме того, стресс, часто возникающий из-за неконтролируемых ситуаций, таких как работа, может повышать уровень глюкозы из-за выброса гормонов.

Кластеризация

Благодаря неконтролируемому обучению и кластеризации K-средних мы выявили скрытые закономерности и группы данных, что улучшило наше понимание профилей пациентов и их риска инсульта. Кластеры, сосредоточенные вокруг двух возрастных групп (54 года и 21 год), показали, что пожилые пациенты с гипертонией или сердечными заболеваниями чаще переносят инсульт. Фактически, большинство значений гипертонии и сердечных заболеваний были ниже 1, что указывает на то, что эти состояния были более распространены в старшей возрастной группе. Кроме того, частота инсультов была на 4% выше среди лиц старшей возрастной группы. У пожилых людей также был более высокий ИМТ и средний уровень глюкозы по сравнению с их более молодыми сверстниками.

Кластерный анализ подтвердил сильную корреляцию между возрастом и риском инсульта, а также влияние сердечно-сосудистых заболеваний, гипертонии и среднего уровня глюкозы. Известно, что высокий ИМТ, еще один критический фактор риска, вызывает артериальную гипертензию, что еще больше подчеркивает важность этих переменных в прогнозировании инсульта.

7) Прогностическая модель

Мы использовали логистические модели, случайные леса и деревья решений для разработки прогностической модели риска инсульта с использованием сбалансированного набора данных, который обеспечивает равномерное распределение случаев инсульта и отсутствия инсульта. Этот подход предотвращает предвзятые прогнозы, связанные с несбалансированными наборами данных. Все модели были протестированы со всеми переменными, восемью ключевыми переменными и четырьмя основными факторами риска. Модели со всеми переменными показали наименьшую точность.

Дерево решений и модели GLM, хотя и не самые точные, дали ценную информацию. GLM подтвердила, что возраст, гипертония, болезни сердца и средний уровень глюкозы являются ведущими факторами риска инсульта. Статус курения, ИМТ, семейное положение и тип работы повысили точность и косвенно повлияли на факторы риска. Дерево решений визуально отображало вклад каждой переменной в риск инсульта, проясняя взаимосвязь между переменными.

Случайные леса, состоящие из множества независимых деревьев решений, голосовали за вывод во время обучения, при этом окончательный прогноз определялся большинством. Модель случайного леса, включающая все восемь переменных, достигла впечатляющей степени точности 89,92% при прогнозировании риска инсульта. Модель с четырьмя главными факторами риска дала уровень точности 83,6%.

На рисунке ниже показаны два графика. %INCMse показывает, насколько уменьшится наш уровень точности при удалении этой переменной. IncNodePurity показывает важность каждой переменной и визуализируется на двух графиках ниже.

Как мы можем уменьшить наши шансы получить инсульт?

Мы знаем, что HT, HD, высокий AGL и возраст являются наиболее важными показателями при прогнозировании вероятности инсульта. Мы также понимаем, что стресс, который часто встречается на работе и в отношениях, может вызвать высокий уровень AGL.

Кроме того, на ГТ сильно влияет ИМТ, а курение повышает риск развития БГ. Конечно, HT, HD и AGL приходят с возрастом, но благодаря этому анализу и внешним исследованиям мы обнаружили, что подвергает человека большему риску столкнуться с факторами риска. Пропагандируя здоровый образ жизни, мы можем предотвратить или отсрочить вероятность возникновения у нас факторов риска, и, следовательно, они косвенно влияют на вероятность возникновения инсульта.

8) Инсайты

С помощью простых моделей корреляции и более сложных логистических моделей, случайных лесов и деревьев решений мы установили, что возраст, гипертония, средний уровень глюкозы и болезни сердца служат первичными предикторами инсульта. Мы также пришли к выводу, что ИМТ, семейное положение, курение и тип работы косвенно влияют на риск инсульта, воздействуя на основные факторы риска.

Мы исследовали связь между вторичными факторами риска, такими как ИМТ, семейное положение и курение, а также типом работы, которые существенно влияют на риск гипертонии и сердечных заболеваний. Стресс, обычно связанный с работой или отношениями, повышает уровень глюкозы. Выявление этих факторов образа жизни облегчает профилактику инсульта, способствуя изменению образа жизни.

Из трех алгоритмов машинного обучения Random Forest достиг наибольшей точности, используя как модели с восемью переменными, так и модели с четырьмя переменными. Модель с четырьмя переменными отличается точностью 83,6% и минимальными входными данными, предлагая медицинским работникам ценный инструмент для прогнозирования риска инсульта на основе электронных медицинских карт пациентов.