PyCaret :: Мгновенный рецепт с низким уровнем кодирования для моделей машинного обучения
В этом мире Data Frenzy, где все больше и больше компаний видят в данных потенциал для создания ценности, внезапно возникает потребность в более быстрых и удобных для программирования библиотеках / инструментах, и использование этой тенденции PyCaret становится спасителем. Я недавно наткнулся на него и был очень впечатлен этим, поэтому написал эту статью, чтобы поделиться.
PyCaret превратил программирование и решение задач машинного обучения в детские игры. В этой статье я покажу вам, как легко и быстро мы можем решить любую проблему с машинным обучением (для этого обсуждения я беру задачу контролируемой классификации).
Так что давайте запачкаем руки - Coding Time (о, я забыл его Pycaret !!!)
«Любой дурак может написать код, понятный компьютеру. Хорошие программисты пишут код, понятный людям ».
- Мартин Фаулер
PyCaret имеет открытый исходный код, и вы можете установить его в своей любимой среде Python следующим образом:
pip install pycaret
Прочтите свои данные с помощью pandas, я использую старый набор данных «Iris» для демонстрации, поскольку все мы с ним знакомы.
При необходимости очистите данные (я оставлю это вне рамок этой статьи)
Просто скажите PyCaret, какая ваша целевая переменная (переменная класса) - легко до сих пор?
Сравните модель командой - и вуаля! Проверьте лучший из возможных алгоритмов и верните все важные параметры оценки производительности, а также выделите наиболее эффективные модели. Итак, все, что вам нужно сделать, это выбрать лучшую! Или выбрать две лучшие - три лучших и создать свою собственную ансамблевую модель
Как только лучшая модель выбрана - выполните настройку гиперпараметров и создайте ее для прогнозирования! Нет необходимости писать эти длинные коды для настройки гиперпараметров - Pycaret позаботится о вас, настройка выполняется одной простой командой, и вы можете увидеть улучшенные показатели производительности.
Test Train split is taken care by pyCaret on data loading by default(70–30 ratio split)😎
Теперь время оценки модели - снова все очень просто!
Давайте быстро проверим, как выглядят наша матрица путаницы и кривая ROC.
И, наконец, сохранение вашей модели (она сохраняется в формате рассола) -
Готово! Написание кода для решения задачи машинного обучения никогда не было таким простым.
Что дальше -
Я напишу еще одну статью о внедрении машинного обучения в Power BI с использованием Pycaret….