Обучение ансамблем – это концепция, согласно которой оптимальное прогнозирование может быть достигнуто за счет использования нескольких моделей, которые сильно диверсифицированы (независимы друг от друга) и объединения их выходных данных.
Почему ансамбль?
Модели машинного обучения всегда сталкиваются с понятием ошибки смещения и дисперсии, и одной из фундаментальных задач специалистов по данным является выяснить, как уменьшить их для достижения оптимальной производительности.
Цель метода ансамбля состоит в том, чтобы уменьшить ошибку модели за счет создания нескольких базовых обучаемых для:
- Уменьшите дисперсию (применимо для бэгинга и случайного леса).
Предполагая, что обучающие наборы независимы, это поможет снизить чувствительность к отдельным точкам данных (дисперсию) и оставить систематическую ошибку неизменной. - Уменьшить погрешность (улучшение моделей — AdaBoost).
Простые модели выиграют от среднего значения нескольких моделей за счет увеличения емкости (сложности модели). - Смесь обоих
При построении ансамблей ключевыми моментами являются:
- Как добиться достаточной степени разнообразия путем создания отдельных компонентов? (Базовые учащиеся)
- Разнообразие является ключом к ансамблевому методу, поскольку каждый раз, когда новый набор обучающих данных присутствует в модели, будут возникать разные ошибки. (Проще говоря, распределение ошибки не будет равномерным и, следовательно, сможет уменьшить ошибку обобщения) - Как объединить результаты отдельных классификаторов?
Разнообразие является ключом к ансамблевому методу, и важно помнить, что объединение идентичных моделей не даст преимущества при создании модели с уменьшенной ошибкой. Не только разнообразие, но и хорошая производительность каждой отдельной модели оказывает огромное влияние на производительность.
Тип разнообразия:
- Неявное разнообразие: случайное подмножество обучающих данных для каждого учащегося
– Бэггинг - Явное разнообразие: последующий учащийся отличается от предыдущего учащегося
– Повышение
Методы ансамбля
Бэггинг
. Манипулятор наборов данных (случайная выборка с заменой) позволяет создавать диверсифицированные наборы данных, и каждый отдельный набор данных будет иметь собственный вывод. Агрегирование каждого отдельного вывода дает максимальную производительность модели.
- Принято считать, что из-за независимости возможна параллельная обработка. Однако параллельная обработка не обязательно означает более быстрое выполнение. (Это связано с очень сложными вычислениями, требуемыми отдельной моделью/классификатором)
Усиление
— результат первой модели будет иметь некоторое влияние на вторую модель и будет продолжаться до тех пор, пока не достигнет M заданных моделей.
- Последовательная обработка требуется для бустинга моделей, поскольку выходные данные предыдущей модели могут влиять на последующую модель.
(Совет: параллельная обработка возможна с моделями Boosting и, следовательно, имеет относительно высокую и точную производительность — XGBoost)
Почему работает ансамбль? (Математическое объяснение)
Напомним, ошибку модели можно рассчитать по формуле ниже:
ym(x): оценка/прогнозируемый результат для данной модели m с входными данными x
f(x): истинная функция (фактические выходные данные)
em(x): шум/неустранимая ошибка модели m с входными данными Икс
Сравнение ошибки отдельной модели с ошибкой ансамбля:
E Avg: Средняя ошибка, допущенная M отдельными моделями
Думайте об этом как об одном и том же моде.
E Ансамбль: Ожидаемая ошибка ансамбля
Предполагая:
ошибка имеет нулевое среднее (без смещения), а ошибки моделей некоррелированы (независимые)
При вышеуказанных обстоятельствах можно определить ошибку ансамбля как:
Это можно интерпретировать как то, что ошибка ансамблевых методов может быть сведена к средней ошибке отдельных моделей / общему количеству ансамблей.
По мере увеличения модели M (генерируется больше ансамблей) ошибка ансамбля может быть минимизирована до средней ошибки отдельной модели / количества ансамблей.
Это уравнение является теоретическим, поскольку модель не может иметь нулевую среднюю ошибку, и поэтому приведенная выше формула объясняет теоретическую ошибку, которая может возникнуть для ансамблевого метода.
В реальном примере было бы невозможно даже близко подойти к теоретическому уравнению. Однако всегда верно, что ансамблевая ошибка меньше, чем средняя ошибка отдельных моделей.
Напомним, из класса исчисления, неравенство Коши утверждает, что:
(a² + b²) (x² + y²) ≥ (ax + by)²
В результате ошибка ансамбля всегда меньше, чем средняя ошибка отдельные модели
Даже когда модели считаются не независимыми (коррелированными) и смещенными (ненулевое среднее), ошибка ансамбля всегда меньше или равна средней ошибке тех же моделей, созданных или даже сравниваемых с одной лучшей моделью.