Насколько точно мы можем предсказать болезнь сердца у пациентов, учитывая набор факторов здоровья и образа жизни?

В этом упражнении мы рассматриваем данные о заболеваниях сердца у пациентов из Южной Африки (n = 462).

Краткий обзор данных:

Целевой столбец CLASS представляет наличие болезни сердца у пациента {+1 для положительного результата; -1 для отрицательного}.

9 функциональных столбцов:

  • sdp: систолическое артериальное давление (мм рт.ст.)
  • табак: кумулятивный табак (кг)
  • ldl: холестерин липопротеинов низкой плотности (ед.?)
  • ожирение: индекс ожирения
  • famhist (номинал): {1 — положительный семейный анамнез; 0 без истории}
  • typea: поведение типа A (единицы?)
  • ожирение: индекс массы тела
  • алкоголь: текущее потребление алкоголя (ед.?)
  • возраст: возраст начала заболевания (лет)

В классах {+1/-1} есть разделение 35/65%, поэтому мы можем продолжить обучение модели машинного обучения.

Для этой задачи я использовал обучающее дерево решений в KNIME. Вот мой рабочий процесс:

В основном я придерживался настроек дерева решений по умолчанию, за одним исключением: я включил обрезку, чтобы предотвратить большие деревья, склонные к переоснащению.

Матрица путаницы, сгенерированная на тестовом наборе, была следующей:

Общая точность обученной модели составила 74%, что достаточно хорошо. Но чувствительность обученной модели (вероятность того, что пациент с сердечным заболеванием был правильно предсказан,имеет его) составляла всего 50 % (=16/(16+16) ). С другой стороны, модель очень хорошо предсказывала отрицательные значения, 87 % (= 53/(53+8)).

Вот дерево решений:

Как видите, финальное дерево очень простое и включает только три из девяти характеристик: возраст, фамист и табак — разве это удивительно? Ну и да, и нет!

Из этого анализа ясно, что пожилой возраст (> 49,5 лет) и наличие положительного семейного анамнеза делают человека предрасположенным к заболеванию. А для тех, у кого нет семейного анамнеза, высокий уровень потребления табака повышает риск. Все остальные характеристики были относительно доброкачественными.

Дайте мне знать, если у вас есть отзывы и предложения по улучшению. Я всегда открыт для обучения у других, особенно у тех, кто имеет схожие интересы с моими.

Спасибо за чтение.

Набор данных:
Бартли, Кристофер, 2016 г., Данные репликации: южноафриканская болезнь сердца, https://doi.org/10.7910/DVN/76SIQD, Harvard Dataverse, V1, UNF:6:a/ B6kC/0YiXgVVREW3g23Q== [файлUNF]