Обучение ансамблем – это концепция, согласно которой оптимальное прогнозирование может быть достигнуто за счет использования нескольких моделей, которые сильно диверсифицированы (независимы друг от друга) и объединения их выходных данных.

Почему ансамбль?

Модели машинного обучения всегда сталкиваются с понятием ошибки смещения и дисперсии, и одной из фундаментальных задач специалистов по данным является выяснить, как уменьшить их для достижения оптимальной производительности.

Цель метода ансамбля состоит в том, чтобы уменьшить ошибку модели за счет создания нескольких базовых обучаемых для:

  • Уменьшите дисперсию (применимо для бэгинга и случайного леса).
    Предполагая, что обучающие наборы независимы, это поможет снизить чувствительность к отдельным точкам данных (дисперсию) и оставить систематическую ошибку неизменной.
  • Уменьшить погрешность (улучшение моделей — AdaBoost).
    Простые модели выиграют от среднего значения нескольких моделей за счет увеличения емкости (сложности модели).
  • Смесь обоих

При построении ансамблей ключевыми моментами являются:

  • Как добиться достаточной степени разнообразия путем создания отдельных компонентов? (Базовые учащиеся)
    - Разнообразие является ключом к ансамблевому методу, поскольку каждый раз, когда новый набор обучающих данных присутствует в модели, будут возникать разные ошибки. (Проще говоря, распределение ошибки не будет равномерным и, следовательно, сможет уменьшить ошибку обобщения)
  • Как объединить результаты отдельных классификаторов?

Разнообразие является ключом к ансамблевому методу, и важно помнить, что объединение идентичных моделей не даст преимущества при создании модели с уменьшенной ошибкой. Не только разнообразие, но и хорошая производительность каждой отдельной модели оказывает огромное влияние на производительность.

Тип разнообразия:

  • Неявное разнообразие: случайное подмножество обучающих данных для каждого учащегося
     – Бэггинг
  • Явное разнообразие: последующий учащийся отличается от предыдущего учащегося
    – Повышение

Методы ансамбля

Бэггинг
. Манипулятор наборов данных (случайная выборка с заменой) позволяет создавать диверсифицированные наборы данных, и каждый отдельный набор данных будет иметь собственный вывод. Агрегирование каждого отдельного вывода дает максимальную производительность модели.

  • Принято считать, что из-за независимости возможна параллельная обработка. Однако параллельная обработка не обязательно означает более быстрое выполнение. (Это связано с очень сложными вычислениями, требуемыми отдельной моделью/классификатором)

Усиление
— результат первой модели будет иметь некоторое влияние на вторую модель и будет продолжаться до тех пор, пока не достигнет M заданных моделей.

  • Последовательная обработка требуется для бустинга моделей, поскольку выходные данные предыдущей модели могут влиять на последующую модель.
    (Совет: параллельная обработка возможна с моделями Boosting и, следовательно, имеет относительно высокую и точную производительность — XGBoost)

Почему работает ансамбль? (Математическое объяснение)

Напомним, ошибку модели можно рассчитать по формуле ниже:

ym(x): оценка/прогнозируемый результат для данной модели m с входными данными x
f(x): истинная функция (фактические выходные данные)
em(x): шум/неустранимая ошибка модели m с входными данными Икс

Сравнение ошибки отдельной модели с ошибкой ансамбля:

E Avg: Средняя ошибка, допущенная M отдельными моделями
Думайте об этом как об одном и том же моде
.

E Ансамбль: Ожидаемая ошибка ансамбля

Предполагая:
ошибка имеет нулевое среднее (без смещения), а ошибки моделей некоррелированы (независимые)

При вышеуказанных обстоятельствах можно определить ошибку ансамбля как:

Это можно интерпретировать как то, что ошибка ансамблевых методов может быть сведена к средней ошибке отдельных моделей / общему количеству ансамблей.

По мере увеличения модели M (генерируется больше ансамблей) ошибка ансамбля может быть минимизирована до средней ошибки отдельной модели / количества ансамблей.

Это уравнение является теоретическим, поскольку модель не может иметь нулевую среднюю ошибку, и поэтому приведенная выше формула объясняет теоретическую ошибку, которая может возникнуть для ансамблевого метода.

В реальном примере было бы невозможно даже близко подойти к теоретическому уравнению. Однако всегда верно, что ансамблевая ошибка меньше, чем средняя ошибка отдельных моделей.

Напомним, из класса исчисления, неравенство Коши утверждает, что:
(a² + b²) (x² + y²) ≥ (ax + by)²
В результате ошибка ансамбля всегда меньше, чем средняя ошибка отдельные модели

Даже когда модели считаются не независимыми (коррелированными) и смещенными (ненулевое среднее), ошибка ансамбля всегда меньше или равна средней ошибке тех же моделей, созданных или даже сравниваемых с одной лучшей моделью.