Может, мне стоит начать с извинений за ужасные каламбуры, а?

В любом случае, Bagging - это один из двух основных подклассов методов ансамблевого машинного обучения (я объясню, что ансамбль в этом контексте скоро появится), а второй - Boosting. Его можно использовать как для классификации, так и для регрессии. Обычно используется с деревьями решений, он улучшает стабильность модели за счет повышения точности и уменьшения дисперсии, тем самым уменьшая проблему переобучения. Выглядит интересно, правда? Тогда давайте углубимся в детали.

Bagging - это сокращение от «Bootstrap aggregating». Это подкласс ансамблевых алгоритмов машинного обучения, в котором мы используем несколько слабых моделей и объединяем прогнозы, полученные от каждой из них, для получения окончательного прогноза. Слабые модели должны быть такими, чтобы каждая специализировалась на определенной части пространства функций, что позволяло нам максимально использовать прогнозы каждой модели. Как следует из названия, он состоит из двух частей: начальной загрузки и агрегации.

Начальная загрузка

Самостоятельная загрузка - это метод выборки. Из имеющихся n образцов выбрано k образцов с заменой. Затем мы запускаем наш алгоритм обучения на каждой из этих выборок. Смысл выборки с заменой состоит в том, чтобы сделать повторную выборку действительно случайной. Если это сделать без замены, отобранные образцы будут зависеть от предыдущих и, следовательно, не будут случайными.

Агрегирование

Все просто, как следует из названия. Прогнозы из приведенных выше моделей агрегируются, чтобы сделать окончательный комбинированный прогноз. Это агрегирование может быть выполнено на основе сделанных прогнозов или вероятности прогнозов, сделанных индивидуальными моделями с начальной загрузкой.

Преимущества

Бэггинг использует преимущество ансамблевого обучения, при котором несколько слабых учеников превосходят одного сильного ученика. Это помогает уменьшить дисперсию и, таким образом, помогает нам избежать переобучения.

Недостатки

Потеря интерпретируемости модели. Если не правильно смоделировать, может возникнуть проблема большого смещения. Другой важный недостаток заключается в том, что, хотя упаковка в мешки дает нам большую точность, она требует больших вычислительных ресурсов и может быть нежелательной в зависимости от варианта использования.

Существует множество алгоритмов упаковки, из которых, пожалуй, самым известным является случайный лес. Надеюсь, в будущем я напишу об этом блог.

Надеюсь, вам понравилось это читать. Удачного обучения!