Повышение — это метод ансамбля, который пытается создать сильный классификатор из ряда слабых классификаторов.

Это делается путем построения модели из обучающих данных, а затем создания второй модели, которая пытается исправить ошибки из первой модели. Модели добавляются до тех пор, пока обучающая выборка не будет предсказана идеально или пока не будет добавлено максимальное количество моделей.

AdaBoost был первым действительно успешным алгоритмом повышения, разработанным для двоичной классификации. Это лучшая отправная точка для понимания бустинга. Современные методы повышения основаны на AdaBoost, в первую очередь на машинах повышения стохастического градиента.

AdaBoost используется с короткими деревьями решений. После создания первого дерева производительность дерева в каждом учебном экземпляре используется для взвешивания того, сколько внимания следующее создаваемое дерево должно уделять каждому обучающему экземпляру. Обучающим данным, которые трудно предсказать, присваивается больший вес, тогда как легко предсказуемым экземплярам присваивается меньший вес.

Модели создаются последовательно одна за другой, каждая из которых обновляет веса обучающих экземпляров, которые влияют на обучение, выполняемое следующим деревом в последовательности.

После того, как все деревья построены, делаются прогнозы для новых данных, и производительность каждого дерева оценивается по тому, насколько точным оно было на обучающих данных.

Поскольку алгоритм уделяет так много внимания исправлению ошибок, важно, чтобы у вас были чистые данные с удаленными выбросами.