Публикации по теме oversampling

Публикации по теме 'oversampling'

Как исправить несбалансированные данные

Введение: Несбалансированные наборы данных — распространенная проблема в машинном обучении. Они возникают, когда существует значительная разница в количестве примеров в каждом классе. Это может затруднить обучение модели, которая может точно предсказать класс меньшинства. Существует ряд методов, которые можно использовать для исправления несбалансированных наборов данных. Некоторые из наиболее распространенных методов включают в себя: Избыточная выборка : это включает в себя..

Обработка несбалансированных данных путем передискретизации с помощью SMOTE и его вариантов

В этом посте я объясню передискретизацию/апсемплинг с использованием SMOTE, SVM SMOTE, BorderlineSMOTE, K-Means SMOTE и SMOTE-NC. После объяснений я приведу практический пример, в котором мы применяем эти методы для решения несбалансированной проблемы машинного обучения, чтобы увидеть их влияние. Введение При работе над проблемами машинного обучения я в первую очередь проверяю распределение целевого класса в моих данных. Это распределение информирует об определенных аспектах того,..

Передискретизация и недискретизация с PySpark

В машинном обучении при решении проблемы классификации с несбалансированным набором обучающих данных передискретизация и недостаточная выборка - два простых и часто эффективных способа улучшить результат. Что такое несбалансированный набор данных Количество примеров в одном классе в вашем наборе данных значительно больше, чем в другом классе. Это происходит во многих областях, например, в наборе данных по обнаружению мошенничества , у вас гораздо больше обычных транзакций, чем..

Вопросы по теме 'oversampling'

Дублирование обучающих примеров для обработки дисбаланса классов во фрейме данных pandas

У меня есть DataFrame в пандах, которые содержат примеры обучения, например: feature1 feature2 class 0 0.548814 0.791725 1 1 0.715189 0.528895 0 2 0.602763 0.568045 0 3 0.544883 0.925597 0 4 0.423655 0.071036...

7809 просмотров

05.07.2022

Ошибка в выборке Роуза при балансировке данных с категориальными переменными

Я пытаюсь сбалансировать свои данные, в которых доля большинства классов составляет 99%, а у редкого класса - 1%. Моя переменная ответа является двоичной, а мои независимые переменные являются двоичными, целочисленными и категориальными переменными....

1168 просмотров

r oversampling

01.05.2023

использование sklearn.train_test_split для несбалансированных данных

У меня очень несбалансированный набор данных. Я использовал функцию sklearn.train_test_split для извлечения набора данных поезда. Теперь я хочу увеличить выборку для набора данных поезда, поэтому я использовал для подсчета числа type1 (в моем наборе...

2719 просмотров

python-3.x training-data scikit-learn imbalanced-data oversampling

15.04.2023

Избыточная выборка только с номинальными характеристиками, какие методы передискретизации или занижения выборки могут быть применимы в этом случае?

У меня есть данные, где все характеристики номинальные. Я применил SMOTE-NC, потом обнаружил, что он работает только с комбинацией номинальных и постоянных функций !. В той же статье, посвященной технике SMOTE, есть метод под названием SMOTE-N (для...

190 просмотров

python machine-learning smote imbalanced-data oversampling

28.08.2022

Как исправить ошибку атрибута Python: объект 'SMOTE' не имеет атрибута 'fit_sample'

Здравствуйте: я пытаюсь запустить следующий код: os = SMOTE(random_state=0) X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0) columns = X_train.columns os_data_X,os_data_y=os.fit_sample(X_train, y_train)...

408 просмотров

python smote imbalanced-data oversampling

23.07.2022