Бинарная классификация: советы и рекомендации по результатам 10 соревнований Kaggle

Эта статья изначально была написана Дерриком Мвити и размещена в блоге Neptune.

Представьте, если бы вы могли получить все советы и рекомендации, необходимые для решения проблемы двоичной классификации на Kaggle или где-либо еще. Я принял участие в более чем 10 соревнованиях Kaggle, в том числе:

– и вытащил эту информацию для вас.

Нырнуть в.

Моделирование

Используйте два слоя BiGru, передавая два последних плотных слоя.
Определите лучшие параметры, выбрав лучший из 250 прогонов с байесовской оптимизацией.
Используйте 2-уровневый двунаправленный GRU с последующим максимальным пулом и 2 полносвязными уровнями.

Решение проблем с дисбалансом

Проверьте этот обширный блокнот по работе с несбалансированными классами
Балансировка классов ваншотов: Получение частот топ-1 классов и замена класса «новый кит классами ваншотами и не представленными @ топ-1»

Метрики

Глобал АУК
Объяснение показателя ROC AUC для обнаружения мошенничества (+альтернативы)
Старая добрая точность
Средняя средняя точность (MAP)
Потеря двоичного журнала
Бета-оценка F, где бета равна 0,5

Потеря

BCE и игра в кости

Основанная на очаговых потерях

Пользовательские потери

Взвешенные подгруппы отрицательных проб

Другие

Перекрестная проверка + правильная оценка

Использовать состязательный проверка
Применить перекрестную проверку GroupKFold
Простое разделение времени и использование последних 100 тыс. записей в качестве проверочного набора
Генерировать прогнозы, используя KFold без перетасовки
Используйте стратифицированные 5-кратно без ранней остановки для прогнозирования тестовых данных.
Внедрить LightGBM на 10 KFolds без перетасовки
При использовании псевдометок не проверяйте псевдометки, чтобы избежать переобучения.
Используйте Стандартную 10-кратную стратифицированную перекрестную проверку с несколькими семенами для окончательной смеси.

Постобработка

Ансамбль

Усреднение

Усреднение по нескольким семенам

В среднем 10 неверных прогнозов
Среднее количество семян
Добавить модель разнообразие по усреднению семян и модели мешков с разными складками

Среднее геометрическое

Ансамбль LightGBM, средневзвешенное геометрическое CatBoost

Средние разные модели

Укладка

Стек Bi-LSTM, Bert-Large-Uncased с WWM, XLNET, с метамоделью ExtraTreesClassifier
Стекирование LightGBM
Stack LightGBM с тяжелой байесовской оптимизацией
Модели стека с использованием PyStackNet и MlXtend
Ансамбль RNN, CNN, LightGBM и NBSV
Используйте 5-кратный пакет XGB
Показатели резюме с тяжелой байесовской оптимизацией

Смешивание

Используйте мощность смешивание
Смешайте с помощью Hyperopt и OOF, чтобы найти оптимальные веса

Другие

Ансамбль Implement Hillclimb
Применить LGB в мешках 10 раз с разными образцами обучающих данных

Репозитории и открытые решения

Репозитории с решениями с открытым исходным кодом

Решения на основе изображений

Табличные решения

Как внедрить LibFM в Keras и как его использовали в конкурсе Говорящие данные на Kaggle
Решение XGB для обнаружения мошенничества
Разработка функций обнаружения мошенничества
Решение 2-го места Прогнозирование транзакций клиентов Santander
5-е место в Santander для прогнозирования транзакций клиентов
Решение для конкурса Kaggle Santander по прогнозированию транзакций клиентов»
2-е место в конкурсе Microsoft Malware Prediction Challenge на Kaggle

Решения на основе классификации текста

Последние мысли

Надеюсь, эта статья познакомила вас с советами и рекомендациями по бинарной классификации, а также с некоторыми инструментами и фреймворками, которые вы можете использовать, чтобы начать конкурировать.

Мы рассмотрели советы по:

архитектуры,
потери,
Постобработка,
ансамбль,
инструменты и фреймворки.

Если вы хотите углубиться, просто перейдите по ссылкам и посмотрите, как строятся лучшие модели бинарной классификации.

Смотрите также:

Эта статья изначально была написана Дерриком Мвити и размещена в блоге Neptune. Там вы можете найти более подробные статьи для специалистов по машинному обучению.

Бинарная классификация: советы и рекомендации по результатам 10 соревнований Kaggle

Моделирование

Решение проблем с дисбалансом

Метрики

Потеря

BCE и игра в кости

Основанная на очаговых потерях

Пользовательские потери

Другие

Перекрестная проверка + правильная оценка

Постобработка

Ансамбль

Усреднение

Усреднение по нескольким семенам

Среднее геометрическое

Средние разные модели

Укладка

Смешивание

Другие

Репозитории и открытые решения

Репозитории с решениями с открытым исходным кодом

Решения на основе изображений

Табличные решения

Решения на основе классификации текста

Последние мысли

Вопросы по теме