Публикации по теме 'oversampling'
Как исправить несбалансированные данные
Введение:
Несбалансированные наборы данных — распространенная проблема в машинном обучении. Они возникают, когда существует значительная разница в количестве примеров в каждом классе. Это может затруднить обучение модели, которая может точно предсказать класс меньшинства.
Существует ряд методов, которые можно использовать для исправления несбалансированных наборов данных. Некоторые из наиболее распространенных методов включают в себя:
Избыточная выборка : это включает в себя..
Обработка несбалансированных данных путем передискретизации с помощью SMOTE и его вариантов
В этом посте я объясню передискретизацию/апсемплинг с использованием SMOTE, SVM SMOTE, BorderlineSMOTE, K-Means SMOTE и SMOTE-NC. После объяснений я приведу практический пример, в котором мы применяем эти методы для решения несбалансированной проблемы машинного обучения, чтобы увидеть их влияние.
Введение
При работе над проблемами машинного обучения я в первую очередь проверяю распределение целевого класса в моих данных. Это распределение информирует об определенных аспектах того,..
Передискретизация и недискретизация с PySpark
В машинном обучении при решении проблемы классификации с несбалансированным набором обучающих данных передискретизация и недостаточная выборка - два простых и часто эффективных способа улучшить результат.
Что такое несбалансированный набор данных
Количество примеров в одном классе в вашем наборе данных значительно больше, чем в другом классе. Это происходит во многих областях, например, в наборе данных по обнаружению мошенничества , у вас гораздо больше обычных транзакций, чем..
Вопросы по теме 'oversampling'
Дублирование обучающих примеров для обработки дисбаланса классов во фрейме данных pandas
У меня есть DataFrame в пандах, которые содержат примеры обучения, например:
feature1 feature2 class
0 0.548814 0.791725 1
1 0.715189 0.528895 0
2 0.602763 0.568045 0
3 0.544883 0.925597 0
4 0.423655 0.071036...
7809 просмотров
schedule
05.07.2022
Ошибка в выборке Роуза при балансировке данных с категориальными переменными
Я пытаюсь сбалансировать свои данные, в которых доля большинства классов составляет 99%, а у редкого класса - 1%. Моя переменная ответа является двоичной, а мои независимые переменные являются двоичными, целочисленными и категориальными переменными....
1168 просмотров
schedule
01.05.2023
использование sklearn.train_test_split для несбалансированных данных
У меня очень несбалансированный набор данных. Я использовал функцию sklearn.train_test_split для извлечения набора данных поезда. Теперь я хочу увеличить выборку для набора данных поезда, поэтому я использовал для подсчета числа type1 (в моем наборе...
2719 просмотров
schedule
15.04.2023
Избыточная выборка только с номинальными характеристиками, какие методы передискретизации или занижения выборки могут быть применимы в этом случае?
У меня есть данные, где все характеристики номинальные. Я применил SMOTE-NC, потом обнаружил, что он работает только с комбинацией номинальных и постоянных функций !.
В той же статье, посвященной технике SMOTE, есть метод под названием SMOTE-N (для...
190 просмотров
schedule
28.08.2022
Как исправить ошибку атрибута Python: объект 'SMOTE' не имеет атрибута 'fit_sample'
Здравствуйте: я пытаюсь запустить следующий код:
os = SMOTE(random_state=0)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)
columns = X_train.columns
os_data_X,os_data_y=os.fit_sample(X_train, y_train)...
408 просмотров
schedule
23.07.2022