Создайте бинарный классификатор, чтобы предсказать, будет ли донор крови снова сдавать кровь. ‹Ссылка на проект›
Описание Проекта
Кровь — это самый ценный подарок, который кто-либо может дать другому человеку, — дар жизни. ~Всемирная организация здравоохранения
Прогнозирование запасов крови является серьезной и постоянной проблемой для менеджеров по сбору крови: в январе 2019 г. по всей стране Красный Крест в праздничные дни было сдано на 27 000 меньше крови, чем в другое время года. ». Машинное обучение можно использовать для изучения закономерностей в данных, чтобы помочь прогнозировать будущие донорства крови и, следовательно, спасти больше жизней.
В этом проекте вы будете работать с данными, собранными из базы данных доноров Центра переливания крови в городе Синь-Чу на Тайване. Центр передает свой автобус службы переливания крови в один из университетов в городе Синь-Чу для сбора донорской крови примерно каждые три месяца. Набор данных, полученный из Репозитория машинного обучения UCI, состоит из случайной выборки 748 доноров. Ваша задача будет заключаться в том, чтобы предсказать, будет ли донор крови сдавать кровь в течение заданного временного окна. Вы увидите весь процесс построения модели: от проверки набора данных до использования библиотеки tpot
для автоматизации конвейера машинного обучения.
Чтобы завершить этот проект, вам нужно немного знать Python, pandas и логистическую регрессию. Мы рекомендуем ознакомиться с содержимым статей DataCamp Управление фреймами данных с помощью pandas, Предварительная обработка для машинного обучения в Python и Основы прогнозной аналитики в Python (Часть 1).
Задачи проекта
- 1: Проверка файла transfusion.data
- 2: Загрузка данных о донорстве крови
- 3: Проверка кадра данных переливания
- 4: Создание целевого столбца
- 5: Проверка целевого падения
- 6: Разделение переливания на обучающие и тестовые наборы данных
- 7: Выбор модели с помощью TPOT
- 8: Проверка дисперсии
- 9: Нормализация журнала
- 10: Обучение модели линейной регрессии
- 11: Заключение