Почему при повышении градиента вместо остатков используются отрицательные градиенты?

Давайте представим его, прежде чем мы поймем рассуждения. Повышение градиента — это метод ансамблевого машинного обучения для построения прогностических моделей. Он итеративно добавляет в ансамбль слабые модели, такие как деревья решений, с целью исправления ошибок ранее использовавшейся модели в ансамбле.

Теперь давайте ответим на название темы.

Остатки могут быть зашумлены при работе с многомерными данными. Такие остатки не подчиняются статистическим свойствам, таким как нормальность и гомоскедастичность, и помечаются как некорректные. Они могут нарушать предположения о нормальности и гомоскедастичности, что затрудняет интерпретацию производительности модели и оптимизацию ее параметров. Такие неустойчивые остатки также могут возникать, когда данные имеют экстремальные примеры, то есть выбросы, которые плохо представлены моделью. В контексте повышения градиента зашумленные остатки могут привести к нестабильным оценкам градиента, что может привести к тому, что модель обновит свои прогнозы в неправильном направлении, что приведет к более медленной сходимости и снижению производительности, что приведет к неоптимальному решению.

С другой стороны, отрицательный градиент — это гладкая функция, которая обеспечивает четко определенное направление для обновления предсказания модели. Здесь мы берем отрицательный градиент функции потерь по отношению к выходным данным предыдущей модели, а не непосредственно остатки и, следовательно, избегаем шума и нестабильности, связанных с зашумленными остатками, что приводит к сходимости к более оптимальному решению.

Почему при повышении градиента вместо остатков используются отрицательные градиенты?

Вопросы по теме