Публикации по теме 'oversampling'


Как исправить несбалансированные данные
Введение: Несбалансированные наборы данных — распространенная проблема в машинном обучении. Они возникают, когда существует значительная разница в количестве примеров в каждом классе. Это может затруднить обучение модели, которая может точно предсказать класс меньшинства. Существует ряд методов, которые можно использовать для исправления несбалансированных наборов данных. Некоторые из наиболее распространенных методов включают в себя: Избыточная выборка : это включает в себя..

Обработка несбалансированных данных путем передискретизации с помощью SMOTE и его вариантов
В этом посте я объясню передискретизацию/апсемплинг с использованием SMOTE, SVM SMOTE, BorderlineSMOTE, K-Means SMOTE и SMOTE-NC. После объяснений я приведу практический пример, в котором мы применяем эти методы для решения несбалансированной проблемы машинного обучения, чтобы увидеть их влияние. Введение При работе над проблемами машинного обучения я в первую очередь проверяю распределение целевого класса в моих данных. Это распределение информирует об определенных аспектах того,..

Передискретизация и недискретизация с PySpark
В машинном обучении при решении проблемы классификации с несбалансированным набором обучающих данных передискретизация и недостаточная выборка - два простых и часто эффективных способа улучшить результат. Что такое несбалансированный набор данных Количество примеров в одном классе в вашем наборе данных значительно больше, чем в другом классе. Это происходит во многих областях, например, в наборе данных по обнаружению мошенничества , у вас гораздо больше обычных транзакций, чем..

Вопросы по теме 'oversampling'

Дублирование обучающих примеров для обработки дисбаланса классов во фрейме данных pandas
У меня есть DataFrame в пандах, которые содержат примеры обучения, например: feature1 feature2 class 0 0.548814 0.791725 1 1 0.715189 0.528895 0 2 0.602763 0.568045 0 3 0.544883 0.925597 0 4 0.423655 0.071036...
7809 просмотров

Ошибка в выборке Роуза при балансировке данных с категориальными переменными
Я пытаюсь сбалансировать свои данные, в которых доля большинства классов составляет 99%, а у редкого класса - 1%. Моя переменная ответа является двоичной, а мои независимые переменные являются двоичными, целочисленными и категориальными переменными....
1168 просмотров
schedule 01.05.2023

использование sklearn.train_test_split для несбалансированных данных
У меня очень несбалансированный набор данных. Я использовал функцию sklearn.train_test_split для извлечения набора данных поезда. Теперь я хочу увеличить выборку для набора данных поезда, поэтому я использовал для подсчета числа type1 (в моем наборе...
2719 просмотров

Избыточная выборка только с номинальными характеристиками, какие методы передискретизации или занижения выборки могут быть применимы в этом случае?
У меня есть данные, где все характеристики номинальные. Я применил SMOTE-NC, потом обнаружил, что он работает только с комбинацией номинальных и постоянных функций !. В той же статье, посвященной технике SMOTE, есть метод под названием SMOTE-N (для...
190 просмотров

Как исправить ошибку атрибута Python: объект 'SMOTE' не имеет атрибута 'fit_sample'
Здравствуйте: я пытаюсь запустить следующий код: os = SMOTE(random_state=0) X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0) columns = X_train.columns os_data_X,os_data_y=os.fit_sample(X_train, y_train)...
408 просмотров