Назовите любого победителя конкурса Kaggle, который хотя бы раз не использовал Gradient Boosting для получения высокого балла. Каждый использует ту или иную форму метода Gradient Boosting для обучения своей модели так, чтобы она хорошо предсказывала невидимые данные.

Любой может использовать этот метод с простым использованием библиотек, но параметры, задействованные в методе, нельзя настроить, не зная, что происходит внутри алгоритма.

Прежде чем мы углубимся в тему «Повышение градиента», давайте разберемся, что такое «Баггинг» и «Повышение».

Бэггинг - это что-то вроде «разделяй, властвуй и комбинируй». Сначала мы делим весь набор обучающих данных на множество небольших наборов обучающих данных. По каждому такому образцу берутся образцы и строится модель. Наконец, мы объединяем все модели, чтобы получить лучшую модель для набора данных в целом. Для комбинирования мы можем использовать методы среднего, средневзвешенного, голосования и т. Д.

Повышение является последовательным, когда мы берем слабого ученика (ошибка обучения менее 50%), что лучше, чем любой случайный ученик. На каждой итерации мы обучаем этого слабого ученика, и для точек данных, которые были предсказаны с ошибкой, их веса увеличиваются по отношению к точкам данных, которые были предсказаны правильно. Это то же самое, что сказать, что мы наказываем за ошибку и вознаграждаем за то, что были правы. Модель учится на своей ошибке.

Повышение градиента, как следует из названия, относится к алгоритму повышения.

Например, у нас есть 80 положительных точек данных и 20 отрицательных точек данных. Наш слабый ученик воспринимается таким образом, что он предсказывает каждую точку данных как положительную. Итак, погрешность составляет всего 0,2. Теперь мы должны уменьшить веса каждой положительной точки данных и увеличить веса каждой отрицательной точки данных, которая была предсказана неправильно.

Каждая модель обучается с целью минимизировать ошибку. Таким образом, на каждой итерации мы вычисляем ошибку фактического значения v / s прогнозируемого значения. Но в то же время мы должны постоянно проверять наличие проблемы с переоборудованием. С каждой итерацией мы делаем шаг к уменьшению ошибки предсказания. Для предсказания берутся градиенты ошибок, отсюда и название градиентное повышение.