Постановка задачи:
Выявление наличия или отсутствия сердечно-сосудистых заболеваний на основании: Возраста Роста Веса Пола Курения Употребления алкоголя Физической активности Систолического артериального давления Диастолического артериального давления Холестерина Глюкозы.
Данные:
Набор данных, используемый для этого проекта, был получен от Kaggle.
Импорт библиотеки: я импортировал следующие библиотеки:
pandas как pd numpy как np seaborn как sns matplotlib.pyplot как plt tensorflow как tf
Используя функцию pandas read_csv, я загрузил набор данных и, используя функцию .head, получил первые пять строк набора данных.
Я удалил столбец id и преобразовал возраст в годы, поскольку данный возраст в наборе данных был в днях. Это результат использования функции .head.
Затем я проверил нулевые значения, а также статистическую сводку набора данных.
Визуализация данных:
Я визуализировал набор данных, построив график гистограммы с помощью matplotlib.pyplot.
Затем, используя seaborn, я построил корреляцию признаков в виде тепловой карты.
Я также сделал парный сюжет.
Разделение набора данных:
Я разделил набор данных на обучение и тестирование и использовал масштабирование функции искусственной нейронной сети, которое является стандартным масштабатором. Я построил классификатор, используя сигмовидную активацию и relu. Используя сводную функцию, результат:
Обучение:
Я скомпилировал модель, используя Адама в качестве оптимизатора, бинарную кроссэнтропию в качестве потерь и «точность» показателей, затем, наконец, количество шагов было установлено на 50 эпох. Это привело к точности 74%.
Оценка модели:
Я оценил модель, построив графики прогресса потери модели и прогресса точности во время обучения.
Я также оценил производительность тестового набора с помощью тепловой карты.
Наконец, я распечатал оценки из данных, используя отчет о классификации scikit-learn.
Вывод:
Этот проект из моего курса Udemy. Для получения дополнительных предложений со мной можно связаться через мой профиль LinkedIn. Это репозиторий Github этого проекта.