Болезнь Паркинсона (БП) – это заболевание нервной системы, которое влияет на двигательную активность. В основном поражает двигательную систему. По мере ухудшения течения заболевания немоторные симптомы становятся более распространенными. И самое страшное, что от болезни Паркинсона нет лекарства.

Таким образом, лучший возможный способ — выявить заболевание на ранней стадии и начать лечение. И вот здесь в дело вступает использование алгоритмов машинного обучения. Алгоритмы машинного обучения могут определять состояние здоровья человека.

Поэтому в этой статье мы поговорим о выявлении болезни Паркинсона. Итак, приступим.

Источник данных

Я использовал набор данных из репозитория машинного обучения UCI. Перейдите по ссылке, чтобы загрузить набор данных: https://archive.ics.uci.edu/ml/datasets/parkinsons

Набор данных содержит 22 функции, на основе которых мы будем классифицировать состояние здоровья. Он установлен 0 для здорового и 1 для БП. Данные представлены в формате ASCII CSV.

Обзор

Итак, сначала мы импортируем основные библиотеки для нашей модели, то есть numpy, matplotlib, pandas. Затем мы импортируем набор данных через pandas библиотеки python. И разделите набор данных на зависимую (y) и независимую (X) переменную.

Теперь для обучения и тестирования модели мы сначала разделяем данные на обучающий набор и тестовый набор. Для разделения набора данных на обучение и тестирование мы используем библиотеку выбора модели из Scikit-learn. Мы устанавливаем размер теста 0,2, чтобы 20%данные отправляются на тестовый набор, а 80% данных идут на обучение.

Поскольку нам нужны точные прогнозы из модели, нам необходимо масштабировать данные по функциям. Поэтому для масштабирования наших данных мы используем класс библиотеки предварительной обработки Standard Scaler из Scikit-learn.

Затем идет наша самая важная часть нашей модели, которая поможет нам получить оптимальные результаты от нашей модели, т.е. мы применяем Анализ основных компонентов (АПК).

Анализ основных компонентов

Основная идея анализа основных компонентов (PCA) состоит в том, чтобы уменьшить размерность набора данных, состоящего из множества переменных, сильно или слабо коррелирующих друг с другом, при сохранении вариаций, присутствующих в наборе данных, в максимальной степени. PCA извлекает новые независимые переменные из нашего набора данных, которые объясняют большую часть дисперсии набора данных, то есть независимо от зависимой переменной. И это делает PCA неконтролируемой моделью.

А затем, наконец, обучите наши данные в моделях машинного обучения и получите результаты.

Анализ результатов

Мы построили матрицу путаницы и проверили показатель точности для каждой модели.

Модель KNN и модель классификатора случайного леса дали окончательные результаты с точностью 97,43% и f1_score0,9824.

Матрица путаницы:

Вот и подходит к концу этот проект по машинному обучению.

Пожалуйста, поделитесь своими ценными отзывами об этой статье, а также поделитесь своими сомнениями.

Я надеюсь, что мои усилия будут ценны для читателей. Спасибо, что прочитали эту статью.

Я надеюсь, что вам понравилось!

Вы можете найти в LinkedIn здесь:

www.linkedin.com/in/bhaskar-borah-66568b169