PyCaret :: Мгновенный рецепт с низким уровнем кодирования для моделей машинного обучения

В этом мире Data Frenzy, где все больше и больше компаний видят в данных потенциал для создания ценности, внезапно возникает потребность в более быстрых и удобных для программирования библиотеках / инструментах, и использование этой тенденции PyCaret становится спасителем. Я недавно наткнулся на него и был очень впечатлен этим, поэтому написал эту статью, чтобы поделиться.

PyCaret превратил программирование и решение задач машинного обучения в детские игры. В этой статье я покажу вам, как легко и быстро мы можем решить любую проблему с машинным обучением (для этого обсуждения я беру задачу контролируемой классификации).

Так что давайте запачкаем руки - Coding Time (о, я забыл его Pycaret !!!)

«Любой дурак может написать код, понятный компьютеру. Хорошие программисты пишут код, понятный людям ».
- Мартин Фаулер

PyCaret имеет открытый исходный код, и вы можете установить его в своей любимой среде Python следующим образом:

pip install pycaret

Прочтите свои данные с помощью pandas, я использую старый набор данных «Iris» для демонстрации, поскольку все мы с ним знакомы.

При необходимости очистите данные (я оставлю это вне рамок этой статьи)

Просто скажите PyCaret, какая ваша целевая переменная (переменная класса) - легко до сих пор?

Сравните модель командой - и вуаля! Проверьте лучший из возможных алгоритмов и верните все важные параметры оценки производительности, а также выделите наиболее эффективные модели. Итак, все, что вам нужно сделать, это выбрать лучшую! Или выбрать две лучшие - три лучших и создать свою собственную ансамблевую модель

Как только лучшая модель выбрана - выполните настройку гиперпараметров и создайте ее для прогнозирования! Нет необходимости писать эти длинные коды для настройки гиперпараметров - Pycaret позаботится о вас, настройка выполняется одной простой командой, и вы можете увидеть улучшенные показатели производительности.

Test Train split is taken care by pyCaret on data loading by default(70–30 ratio split)😎

Теперь время оценки модели - снова все очень просто!

Давайте быстро проверим, как выглядят наша матрица путаницы и кривая ROC.

И, наконец, сохранение вашей модели (она сохраняется в формате рассола) -

Готово! Написание кода для решения задачи машинного обучения никогда не было таким простым.

Что дальше -

Я напишу еще одну статью о внедрении машинного обучения в Power BI с использованием Pycaret….