Аниш Дулла (руководитель проекта), Акшат Шривастав, Элеонора Пае, Оджас Бардия, Зоеб Джамал

Введение

Как пятая по значимости причина смерти в Соединенных Штатах, борьба с инсультом является одной из самых больших проблем здравоохранения в Америке. В то время как инсульты представляют собой комбинацию различных вариантов питания и образа жизни, складывавшихся десятилетиями, можно предпринять шаги для снижения тяжести и частоты инсультов до того, как они произойдут. Для этого пациентам необходимо знать, подвержены ли они риску инсульта, чтобы они могли внести надлежащие изменения для обеспечения своего благополучия. Вот почему раннее выявление инсульта так важно для решения этой важной проблемы. В то время как врачи традиционно диагностировали пациентов на предмет риска инсульта самостоятельно, просматривая данные о пациентах, внедрение машинного обучения в здравоохранение обеспечило новую точность и эффективность диагностики пациентов на предмет риска инсульта. Мы стремимся создавать и совершенствовать эти модели машинного обучения.

Чтобы более подробно изучить прогнозирование инсульта, команда Woke About Stokes из UCLA DataRes изучила данные пациентов из Kaggle. Этот набор данных содержит 5110 записей о пациентах, включая одиннадцать клинических признаков для прогнозирования инсульта. Для каждого пациента набор данных включает такие поля, как пол, возраст, наличие у пациента гипертонии, наличие у пациента заболеваний сердца, был ли пациент когда-либо женат, тип работы пациента, тип проживания пациента, средний уровень глюкозы, ИМТ, статус курения и целевая переменная инсульта.

Исследовательский анализ данных

Прежде чем мы начали создавать наши модели машинного обучения для классификации, мы решили изучить наш набор данных, чтобы обнаружить любые взаимосвязи между переменными и тенденциями в данных.

Взаимосвязь между уровнем глюкозы, типом работы и курением

Эта тепловая карта описывает средний уровень глюкозы в зависимости от типа работы и статуса курения. Это важно, потому что средний уровень глюкозы напрямую связан с гипертонией, которая вызывает инсульты, и важно понимать, какой образ жизни вызывает это, исходя из профессии и курения. Люди, которые курят и имеют детей, подвергаются наибольшему риску гипертонии.

Демографические данные и штрихи

Демографическая информация может быть ключом к прогнозированию вероятности инсульта. К ключевым демографическим факторам, которые следует учитывать, относятся пол, семейное положение и возраст. Давайте погрузимся!

Сначала мы рассматриваем пол и семейное положение. Из рисунков на следующих страницах видно, что 56,63% пациентов с инсультом были женщинами. Тем, кто планирует брак, подумайте дважды! Наши данные показывают, что 88,35% пациентов, перенесших инсульт, хотя бы раз состояли в браке.

Далее мы исследуем ИМТ людей, перенесших инсульт. По-видимому, нет существенной разницы между распределением ИМТ для обеих групп. Медиана ИМТ у тех, кто перенес инсульт, немного выше и составляет около 29,7, но характеризуется меньшим разбросом по сравнению с теми, кто не перенес инсульта. Если мы разделим ИМТ на разные классы, такие как недостаточный вес, нормальный, избыточный вес и ожирение, неудивительно, что 46,89% людей, перенесших инсульт, страдают ожирением, а 35,89% имеют избыточный вес. Состав лиц с избыточной массой тела и ожирением больше у перенесших инсульт.

Другие факторы риска, которые мы рассмотрели, включали статус курения и совпадение между инсультом и сердечным заболеванием. Мы ожидали, что заядлые курильщики или бывшие курильщики могут указывать на больший риск инсульта. Глядя на наши данные, мы заметили, что большой процент курильщиков или бывших курильщиков перенес инсульт. Хотя большой корреляции нет, важно отметить, что число курильщиков и бывших курильщиков, перенесших инсульт, превышает число некурящих, перенесших инсульт.

Взаимосвязь между уровнем глюкозы, ИМТ и инсультами

Далее мы смотрим на частоту инсульта по отношению к уровню глюкозы и ИМТ. Мы визуализируем их совместное влияние на риск развития инсульта у пациента с помощью двумерной диаграммы рассеяния. Глядя на данные, мы видим более высокие показатели заболеваемости инсультом по мере увеличения уровня глюкозы, и, что интересно, корреляция между ИМТ и частотой инсультов (доля инсультов среди общего числа наблюдений), по-видимому, уменьшается при избыточных уровнях глюкозы — если уровень глюкозы превышает ~200, достоверного увеличения частоты инсульта при более высоких значениях ИМТ не происходит.

Исследование данных машинного обучения

Прежде чем мы углубимся в машинное обучение, мы также можем провести анализ основных компонентов, который представляет собой метод уменьшения размерности нашего набора данных, чтобы подтвердить, что определенные комбинации признаков повышают вероятность инсульта.

Из графика видно, что определенно есть некоторая кластеризация, что указывает на то, что алгоритмы машинного обучения смогут предсказывать удары с высокой точностью.

Прогнозирование инсульта с помощью машинного обучения

Изучив данные о пациентах и ​​тенденции в прогнозировании инсульта, мы начали создавать модели машинного обучения для классификации, чтобы предсказать, будет ли пациент подвержен риску инсульта. Для прогнозирования этих классификаций мы использовали алгоритмы классификации KNN, Decision Tree и SVM. Чтобы сделать эти прогнозы, мы учитывали пол, возраст, наличие у пациента гипертонии, наличие у пациента заболеваний сердца, был ли он когда-либо женат, тип работы пациента, тип проживания пациента, средний уровень глюкозы, ИМТ и статус курения. . Наш алгоритм SVM смог лучше всего предсказать оценки критиков с точностью 95,76%. Давайте подробнее рассмотрим эти алгоритмы и то, почему они предсказали свою точность.

Первой моделью, которую мы использовали, был классификатор K-ближайших соседей (KNN). Грубо говоря, этот подход определяет, к какому классу относится то или иное наблюдение в предположении, что подобные наблюдения существуют в непосредственной близости. В конечном счете, эта модель использует идею о том, что подобные вещи находятся рядом друг с другом. K относится к числу ближайших соседей, и, изменяя значение k, можно настроить модель классификации KNN для получения наиболее точных результатов. Этот алгоритм правильно классифицировал оценки критиков на уровне 95,5% при K = 5, что является очень точной моделью.

Другой используемой моделью машинного обучения было дерево решений, которое хорошо прогнозирует результат на основе комбинации признаков. Сначала дерево решений было обучено с использованием 80-процентного разделения поездов, стратифицированного для обеспечения того, чтобы в данных обучения и тестирования присутствовало соотношение случаев инсульта и случаев без инсульта. K-кратная перекрестная проверка использовалась для определения оптимальной сложности модели.

Как ни странно, модель работала лучше всего, когда использовалась только одна колонка: возраст. По сути, модель только что проверила, был ли возраст старше 67,5 лет. Если да, то классифицируют пациента как инсульт.

Однако мы знали, что эта модель не будет жизнеспособной. Мы решили разделить набор данных по возрасту и обучить две отдельные модели. Один набор данных содержал всех пациентов в возрасте до 67,5 лет, а другой — пациентов в возрасте 67,5 лет и старше. K-кратная перекрестная проверка показала, что модель лучше всего работает с 1–3 ветвями. Эта модель дала нам точность 97,9% и использовала возраст, уровень глюкозы и ИМТ для своих прогнозов.

С другой стороны, модель для «старых» пациентов имела более низкую точность, но по-прежнему имела оптимальную глубину в 1 ветвь. Используя столбец уровня глюкозы, эта модель предсказывала случаи инсульта с точностью 84%.

Наконец, мы использовали машину опорных векторов (SVM), которая разделяет данные на 2 отдельных класса — пациентов, перенесших инсульт, и пациентов, не перенесших инсульт, — используя оптимальную гиперплоскость, которая классифицирует наблюдения, максимизируя поля вокруг разделяющих гиперплоскость. Хотя SVM трудно интерпретировать для моделирования, поскольку мы в первую очередь заинтересованы в выявлении инсульта у пациентов, в нашем случае это полезно. Мы наблюдали точность 95,76%, используя эту модель, как показано в матрице путаницы ниже.

Хотя наши три алгоритма машинного обучения работали принципиально по-разному, все они были достаточно точными в этой задаче классификации, причем SVM был наиболее точным. Мы надеемся, что эта статья смогла дать вам представление о том, насколько эффективным может быть машинное обучение в отрасли здравоохранения. Возможности поистине безграничны. Чтобы увидеть нашу работу, посетите наш Github.