Классификация клиентов - серьезная проблема в розничной торговле. По различным параметрам клиенты делятся на разные классы или группы. На основе этих групп им предоставляются индивидуальные скидки и предложения. Это повышает удовлетворенность клиентов, а также помогает бизнесу принимать важные решения по улучшению продукта или услуги, которые они предоставляют.
Что такое алгоритмы повышения?
Алгоритмы повышения - это те, которые используют концепции ансамблевых алгоритмов. Ансамбль - это метод, который объединяет слабых обучающихся или базовых оценок, таких как деревья решений, для повышения точности.
Что такое классификатор повышения градиента?
Gradient Boosting Classifier - это мощный алгоритм классификации, основанный на методе повышения. Здесь строятся деревья решений, и из каждого дерева решений выбирается лучший путь листа. Это листовое дерево. Например, если в дереве мы получаем максимальную точность для определенного параметра, то этот путь выбирается для следующего параметра.
Давайте код:
Теперь мы собираемся построить модель машинного обучения Gradient Boosting Classifier с использованием Python и некоторых библиотек. Библиотеки - это набор уже написанных программ для упрощения вычислений. Если вы не знаете общепринятые термины машинного обучения, такие как модель, обучение и т. Д., Пожалуйста, посетите мою статью о базовых терминологиях машинного обучения, используя эту ссылку. Приступим к программированию!
Здесь мы импортировали необходимые библиотеки и пакеты для выполнения простой линейной регрессии. Импортируемые библиотеки и пакеты:
- Sklearn: это бесплатная библиотека машинного обучения, которая содержит множество функций и методов, необходимых для построения модели машинного обучения. Из Sklearn мы импортировали три функции ensemble и model_selection. Model_selection содержит функции для разделения набора данных на обучающий и тестовый наборы. Ансамбль содержит алгоритм Gradient Boosting Classifier.
- Pandas: библиотека Pandas используется для загрузки набора данных в форме CSV.
Здесь мы загружаем набор данных с помощью библиотеки pandas и удаляем нулевые значения, что является простым методом предварительной обработки данных. Вот ссылка на набор данных.
Здесь мы устанавливаем целевой столбец «Сегментация» на переменную y, а другие параметры - на переменную x.
Здесь мы разделяем наборы данных на обучающие и тестовые наборы.
Здесь мы инициализируем модель переменной «clf» и подгоняем наш обучающий набор к модели.
Наконец, мы прогнозируем, используя модель, обученную сегментировать клиентов на различные классы, такие как 1, 2, 3, 4 и 5.
Вот ссылка на полный код для вас, чтобы получить практический опыт. По всем вопросам обращайтесь ко мне через LinkedIn. Удачного обучения !!!