Публикации по теме 'classification'


Использование моделей машинного обучения для прогнозирования текучести клиентов
Логистическая регрессия, KNN, Дерево решений, Случайный лес, SVC, Линейный SVC, GaussianNB, BernouliNB Коды Python доступны: https://github.com/JNYH/Project-McNulty Оборачиваемость клиентов, или коэффициент оттока, - это процент потери клиентской базы организации в течение определенного периода времени, обычно за месяц или год. Плохой отток клиентов может нанести серьезный ущерб доходу и прибыльности. Цель этого проекта - прогнозировать отток клиентов в телекоммуникационной..

Apache PySpark для машинного обучения: использование возможностей больших данных для обучения моделей с помощью AWS
PySpark — это платформа с открытым исходным кодом, разработанная Apache для распределенных вычислений с большими данными. Он предоставляет удобный интерфейс для работы с массивными наборами данных в распределенной среде, что делает его популярным выбором для приложений машинного обучения (в моей предыдущей статье я рассказывал о производительности pandas vs PySpark — PyPark Vs Pandas) . Библиотека машинного обучения PySpark под названием MLlib предлагает несколько алгоритмов для..

Деревья решений в MExplained
Дерево решений — это контролируемый алгоритм машинного обучения, который работает на основе рекурсивных ответов на некоторые вопросы (условия «если-иначе»). Алгоритм используется как для регрессии, так и для классификации. Однако в основном для задач классификации. Вопросы в полях называются внутренними узлами , где ответы на вопросы разбивают его на ветви . Узлы, которые больше не разделяются, называются листьями и представляют собой решение/выход модели. Это дерево, конечно,..

Понимание нескольких гиперплоскостей модели OVO SVC scikit-learn
Как интерпретировать атрибут coef_ линейного SVC из scikit-learn для задачи мультиклассовой классификации В моем недавнем посте я показал вам, как интерпретировать атрибуты coef_ и intercept_ подобранной модели SVC для задачи бинарной классификации , а также как построить решающую плоскость. Если вы еще не читали его, я рекомендую вам ознакомиться с ним, прежде чем читать этот пост. Вот ссылка на него: Понимание гиперплоскости модели SVC scikit-learn..

Руководство для начинающих по классификации в машинном обучении
Классификация относится к контролируемому обучению. Он определяет класс, к которому принадлежат элементы данных, и лучше всего используется, когда выходные данные имеют конечные и дискретные значения. В этой статье я собираюсь сравнить некоторые популярные модели классификации, такие как CART, Perceptron, Logistic Regression, Neural Networks и Random Forest. Набор данных Для простоты я использовал небольшой набор данных о фертильности, который содержит более 100 экземпляров и 9..

Борьба со спамом с помощью фильтров: руководство по эффективной защите электронной почты
Введение О, фильтрация спама! Это невоспетый герой мира электронной почты, тихо работающий за кулисами, чтобы защитить нас от шквала нежелательных сообщений, которые каждый день наводняют наши почтовые ящики. Но как на самом деле работает фильтрация спама и как мы можем убедиться, что он эффективно выполняет свою работу? В этом обсуждении мы рассмотрим все тонкости фильтрации спама и узнаем, как сдерживать спам. Так что берите свою любимую пару антиспамовых перчаток и приступим!..

Уменьшение размерности — Сравнение ключевых подходов
Данные стали нефтью для этого цифрового мира, поскольку машинное обучение и ИИ приобрели большую популярность. Однако из-за сложности данных разработка и тестирование моделей машинного обучения могут быть затруднены. Измерения данных являются важным фактором, повышающим сложность данных. Машинное обучение часто менее эффективно при работе с наборами данных, которые включают большое количество измерений. В результате существует несколько стратегий уменьшения размерности (DR), которые..