Неделя № 3 по выявлению сердечных заболеваний

Введение: Всем снова привет! На прошлой неделе мы упомянули понимание данных, мы проанализировали, как данные были разбросаны и в каком интервале риск сердечных заболеваний был выше. На этой неделе мы применим алгоритм K-NN, наш первый алгоритм, к нашим наборам данных и проанализируем результаты. Мы также попробовали алгоритмы Weighted K-NN на нашем 3 набора данных. Начнем!

Набор данных 1 (300 ЗАПИСЕЙ), нормальный алгоритм K-NN

Как видно из этого графика, наилучшая точность достигается при 3,7,20 и 22 значениях k. Мы выбираем 3 для k значение, поскольку при малом значении k возможны меньшие операции. Максимальная точность составляет 75%. Конечно, эту точность можно еще больше повысить. Для этого мы можем попробовать алгоритм Weighted K-nn.

Взвешенный алгоритм K-NN

Как видно из графика, показатель точности - это максимальное значение для k = 8. Максимальная точность увеличена до 78,9%. Рост составляет 4 процента.

Набор данных 2 (4000 записей), нормальный алгоритм K-NN

Как видно из графика, показатель точности - это максимальное значение для k = 13. Максимальная точность составляет 85%.

Взвешенный алгоритм K-NN

Как видно из графика, уровень точности - это максимальное значение для k = 15. Максимальная точность составляет 85,1%. В этом наборе данных 3594 метки «0» и 644 метки «1». Существует несбалансированное распределение классов, поскольку распределение не 50–50. Класс с большим количеством данных называется «основным классом», а меньший - с «второстепенным классом». При работе с несбалансированными данными примерам меньшинства придается тот же вес, что и примерам большинства в существующем алгоритме k-nn. Следовательно, взвешенный алгоритм k-nn не дает лучших результатов, чем обычный алгоритм k-nn.

Набор данных 3 (запись 70 КБ), нормальный алгоритм K-NN

Как видно из графика, показатель точности - это максимальное значение для k = 20. Максимальная точность составляет 71,3 %.

Как видно из графика, показатель точности является максимальным значением для k = 31. Максимальная точность 71,4 %.