Аннотация:

Инсульт может произойти, когда чьи-то кровеносные сосуды закупориваются, и транспортируемые питательные вещества и кислород не достигают мозга. При инсульте клетки мозга не получают необходимых им питательных веществ и начинают умирать [3]. Это может вызвать различные побочные эффекты после инсульта. В этом исследовании мы пытаемся предсказать возможность одного типа побочного эффекта после инсульта, афазии, используя методы машинного обучения (ML). Используя данные исследования повреждения головного мозга после инсульта и того, какие последствия были у пациентов после инсульта, мы обучили модель прогнозировать, может ли человек иметь афазию, основываясь на том, где было его поражение, насколько оно было большим, как давно. их инсульт был и некоторые другие факторы. Мы оценили несколько методов классификации и обнаружили, что использование линейного дискриминантного анализа было наиболее точным прогнозом, когда мы использовали возраст, пол, местоположение поражения, объем поражения и многое другое. С помощью линейного дискриминантного анализа мы смогли получить общую прогностическую норму 91% пациентов с афазией или без нее после перенесенного инсульта.

Введение:

Несмотря на то, что инсульты чаще всего случаются у пожилых людей, все еще существует большая группа молодых пациентов, перенесших инсульт. Молодые люди также подвержены риску, и в нашем наборе данных было почти 15% пациентов в возрасте 50 лет и моложе. В 2017 году CDC опубликовал данные, показывающие, что примерно 795 000 человек в США ежегодно переносят инсульт [2]. По данным из США, каждые 40 секунд у человека случается инсульт, а каждые 4 минуты в США от инсульта умирает человек. Инсульт является одной из основных причин смерти в США [2,3]. Важно понимать, что это может причинить вашему телу, особенно вашему мозгу. Инсульт может привести к множеству побочных эффектов.

В этом исследовании мы сосредоточились на побочном эффекте инсульта, афазии. Люди могут испытывать афазию, когда участки их мозга, ответственные за речь, повреждены, возможно, в результате инсульта или травмы головы. Когда это произойдет, человек будет бороться с пониманием и выражением языков, что повлияет на его способности к чтению и письму [4]. Мы построили модель машинного обучения, чтобы предсказать, будет ли у человека, перенесшего инсульт, афазия или нет. Чтобы достичь этого, модель ML изучила различия между наличием афазии и отсутствием афазии. Для обучения требуется достаточно данных, чтобы сформулировать закономерность, чтобы можно было делать правильные прогнозы о том, какие дефекты, особенно афазия, могут возникнуть у человека в результате инсульта. Также важно подчеркнуть, что афазия — не единственное последствие инсульта, и что мы выбрали ее, потому что она меняет нашу жизнь и заставляет людей вокруг нас адаптироваться.

Метод:

Мы построили модель машинного обучения, используя данные отдельных пациентов с сайта doi.org[1], в котором проводился эксперимент на людях, ранее перенесших инсульт. В ходе исследования выяснилось, какие типы дефектов были у людей, и одним из дефектов, на который они проверялись, была афазия [1]. Мы разделили данные на две группы: 75% — обучающие данные и 25% — тестовые данные. Чтобы модель хорошо обучалась, нам нужно было определить важные признаки, которые позволили бы нам максимально точно прогнозировать афазию у пациентов. На основании таблицы данных, приведенной в этом источнике, мы использовали 10 признаков: возраст, пол, фаза, тип поражения, локализация поражения, площадь поражения, время после инсульта, FM A, FM B+C и FM Sensation.

Для функций с ограниченным числом значений нам нужно было иметь достаточно данных для каждого отдельного значения, чтобы модель могла эффективно обучаться. Для некоторых функций мы удалили значения, которые содержат очень мало данных. Примером удаленных данных была базилярная артерия левого полушария для места поражения L-BA, поскольку это место поражения было только у одного человека. Если такие данные использовались для обучения модели, они могут быть отброшены, поскольку это уникальный случай, что может сделать его более неточным. Это позволило модели сосредоточиться на случаях с достаточно богатыми данными.

Мы протестировали несколько различных методов классификации, чтобы определить лучший метод для успешной прогностической модели. Методами классификации, которые мы тестировали, были классификатор логистической регрессии, классификатор дерева решений, классификаторы k-ближайших соседей, линейный дискриминантный анализ, гауссовский наивный байесовский классификатор и классификаторы опорных векторов [5]. Мы заметили, что некоторые классификаторы были более эффективными, чем другие, благодаря используемым функциям. Для модели мы хотим, чтобы она имела высокую точность как для положительных, так и для отрицательных случаев. Однако мы вряд ли можем добиться того, чтобы оба были высокими из-за ложных прогнозов. Интересно, что мы заметили, что гауссовский классификатор имеет 100% точность для отрицательных случаев, но очень низкую точность для положительных случаев. Это означает, что он выберет, что у пациента афазия, только если он будет очень уверен, но в противном случае он всегда будет говорить, что у пациента нет афазии. Это могло бы гарантировать 100% отзыв для людей с афазией, при этом стоимость отзыва всего 65% для людей без афазии. Это показало, что гауссиан не лучше всего подходил для метода классификации, потому что модели было нечему учиться в разных случаях, если она всегда выбирала один результат, если не была полностью уверена в другом. Когда дело дошло до выбора классификатора, который мы собирались использовать, мы рассмотрели, какой тип точности мы хотим, чтобы модель имела. Три, которые мы рассмотрели, были: более высокая точность положительного отзыва и отрицательная точность, равные показатели точности и отзыва, а также высокая точность отрицательного отзыва и точность положительной точности. У каждого из этих типов были свои преимущества, но мы решили иметь равные, высокие показатели точности, а отзыв был лучшим вариантом, поскольку он позволял повысить общую точность. Единственным недостатком этого варианта является то, что прогноз может быть неверным независимо от того, какой вариант они выбирают чаще по сравнению с другими, более консервативными подходами. Мы также заметили, что модель может переобучиться на основе обучающих данных, но она плохо предсказывает использование тестовых данных. Модель дерева решений достигла 100% точности на обучающих данных, но только 82% на тестовых данных. При значительном сокращении набора тестовых данных мы считаем, что модель подходит. Основываясь на нашей оценке производительности как на обучающих данных, так и на тестовых данных, лучшим методом классификации является линейный дискриминантный анализ.

Для модели мы хотим использовать наиболее эффективные функции. Мы проверили, какую функцию мы могли бы удалить без существенного изменения общей точности. Тестирование метода классификации также позволит нам проверить функции, поскольку мы сможем увидеть изменения неточности различных методов, когда мы изменим, какие функции были включены. После того, как мы решили использовать линейный дискриминантный анализ, поскольку он был наиболее точным, мы протестировали модель, удалив некоторые признаки. Мы обнаружили, что скорость прогнозирования значительно изменилась, когда мы убрали какую-либо функцию. Пол и возраст являются хорошими признаками для включения, потому что они могут помочь классифицировать пациентов, поскольку они являются ограниченными ответами на пол, а возраст полезен для понимания того, в какой возрастной группе могут быть самые тяжелые поражения. Площадь поражения и размер поражения важны, потому что они могут изменить результаты того, какие эффекты будут испытывать люди. Время после инсульта также важно, потому что чем дольше время после инсульта, тем больше вероятность того, что у пациента будет время либо ухудшить афазию, либо, возможно, успеть оправиться от нее. Остальные функции — это тесты, которые проводят пациенты, которые могут помочь определить, какие у них побочные эффекты. Они могли бы давать тесты для проверки языка, чтобы увидеть, есть ли у пациентов афазия или нет.

Линейный дискриминантный анализ — это метод классификации, который использует данные для создания формулы. Мы бы использовали эту формулу и проверили ее на конкретных данных в нашем наборе данных, чтобы убедиться, что программа так же надежна.

Результат:

Мы не выбрали линейный дискриминантный анализ случайным образом, а вместо этого протестировали каждый из типов классификации, используя обучающий набор данных. Прогностические показатели точности для 75% данных для обучения показаны ниже:

В этой таблице показаны точность, полнота и общая точность путем случайного разделения набора данных на обучающий набор и тестовый набор. Точность определяется ответами модели и тем, насколько они точны по сравнению с фактическими результатами, в то время как отзыв определяется фактическими результатами и тем, насколько точны эти ответы на основе ответов, предсказанных моделью. Поскольку наша цель состояла в том, чтобы предсказать, есть ли у кого-то афазия после перенесенного инсульта, было бы лучше, если бы и полнота, и точность были высокими как для положительных, так и для отрицательных случаев. Исходя из этих условий, результаты тестирования показывают, что линейный дискриминантный анализ является лучшим. Это связано с тем, что точность и полнота составляют 90%, 82%, 91% и 95%, что является высоким или относительно высоким уровнем точности. Этот метод классификации также имеет самую высокую общую точность 91%, а разница между линейным дискриминантным анализом и вторыми по точности методами, такими как K-ближайшие соседи и гауссовский наивный байесовский анализ, составляет 6%.

После использования 75% данных, чтобы научить машину создавать формулу, которая будет использоваться при вводе данных пользователем. Как только это было завершено, мы использовали оставшиеся данные для тестирования программы, что составило 25% данных. Ниже приведены результаты тестовых данных:

Вот несколько примеров из тестовых данных в таблице ниже с помощью линейного дискриминантного анализа:

Как видите, большинство результатов верны. Однако в формуле прогнозирования все еще есть некоторые ошибки, связанные, скорее всего, с меньшим объемом данных. При меньшем размере данных в формуле будет меньше данных для создания формулы, поэтому уравнение будет не таким точным, как формула, созданная с тысячами наборов данных.

Будущая работа:

В этой работе использовался ограниченный набор данных из 130 образцов. Мы также рассмотрели подмножество случаев, поскольку в некоторых случаях имеется менее 5 образцов. Поиск большего количества данных и, возможно, более разнообразного и сбалансированного набора данных поможет улучшить результат модели машинного обучения и охватить все возможные случаи. Мы считаем, что причина, по которой мы не можем удалить какие-либо функции, также может быть связана с ограниченными данными, которые у нас есть в этом исследовании. Получив более крупный сбалансированный набор данных, мы могли протестировать больше комбинаций функций, чтобы увидеть, можем ли мы уменьшить количество функций без существенного изменения точности прогноза модели. Наконец, мы считаем, что этот метод может быть расширен для других эффектов инсульта, как только будет получен хороший набор данных для обучения модели.

Обзор:

В этом исследовании мы использовали набор данных эксперимента, в котором проверяли афазию у пациентов, ранее перенесших инсульт. Мы использовали данные пациентов, такие как площадь поражения или размер поражения, чтобы позволить программе определить, у каких пациентов была афазия, а у каких нет. Мы использовали линейный дискриминантный анализ, потому что он был наиболее точным в нашем тестировании среди 6 различных методов классификатора. Используя самый точный метод в целом, мы смогли предсказать, есть ли у определенных пациентов афазия, с точностью 91%. Однако одна из проблем этой модели заключается в том, что она требует большого количества входных данных, которые могут быть не у всех, поэтому эта модель может быть полезна только для ограниченной группы людей. Еще одной проблемой был ограниченный объем данных. В целом, мы смогли создать модель машинного обучения с хорошей степенью точности и протестировали ее с конкретными индивидуальными данными об отдельных пациентах, чтобы действительно увидеть, насколько хорошо работает наш предиктор.

Ссылки:

[1] Френкель-Толедо С., Фридберг Г., Офир С., Бартур Г., Ловенталь-Раз Дж. и др. (2019)Влияние локализации поражения на функциональное восстановление гемипаретичной верхней конечности. PLOS ONE 14(7): e0219738. https://doi.org/10.1371/journal.pone.0219738

[2] Бенджамин, Эмилия Дж., Майкл Дж. Блаха и др. «Тираж». Стеки CDC, 25 января.

2017 г., stacks.cdc.gov/view/cdc/45425. По состоянию на 26 декабря 2020 г.

[3] Об инсульте. Stroke.org, Американская кардиологическая ассоциация, https://www.stroke.org/en/about-stroke

[4] «Афазия». Национальный институт глухоты и других коммуникативных расстройств,

Министерство здравоохранения и социальных служб США, декабрь 2015 г., www.nidcd.nih.gov/

здоровье/афазия. По состоянию на 26 декабря 2020 г.

[5] Ли, Сьюзен. «Решение простой задачи классификации с помощью Python — Fruits

Издание для влюбленных». Towards Data Science, Medium, 4 декабря 2017 г.,

в направленииdatascience.com/

решение-простой-проблемы-классификации-с-питоном-фруктами-любителями-издание-d20ab6b

071д2. По состоянию на 26 декабря 2020 г.

[6] http://jmlr.csail.mit.edu/papers/v12/pedregosa11a.html, Pedregosa et al., JMLR 12, стр. 2825–2830, 2011.