[ ML ] Kaggle에 적용해보는 XGBoost

что такое xgboost, как настроить параметры, учебник kaggle

아직까지 100% 이해가 잘 안가지만 위 포스팅을 통해 조금이나마 내가 이해한 내용을 남겨보려 한다. 남겨두면 훗날 도움이 될 것이라고 생각한다.

Введение

Случайный лес. Случайный лес 는 данные с повторной выборкой.
алгоритм бустинга이 기반이 됨
최근에 kaggle 유저들에게 큰 인기를 끌고 있음

Что такое XGBoost?

XGboost는 Extreme Gradient Boosting의 약자
Повышение градиента
주로 Проблемы контролируемого машинного обучения에 활용

주요 특징

Параллельные вычисления
Регуляризация:
линейная модель на основе дерева.
Включена перекрестная проверка:
функция резюме.
Отсутствующие значения:
결측치를 내부적으로 처리해준다. 실제로 kaggle에 적용해보는 과정에서 정말 편리하였다.
Гибкость :
целевая функция 은 모델의 성능을 평가하는데 활용되는데 xgboost 사용자 정의 целевая функция 과 метрики оценки 를 사용할 수 있도띘.
Наличие :
python, R을 포함한 다양한 언어로 활용이 가능하다.
Сохранить и перезагрузить
Обрезка деревьев:
일반적인 повышение градиента에서는 обрезка деревьев 과정이 негативные потери가 발생하면 멈추게 된다. 하지만 xgboost는 max_depth까지 진행한 뒤 функция потерь 에서의 개선이 일정 threshold에 못미칠 경우까지 역방향으로 볼정읉 짤진 짤.

Как работает ex XGboost?

Алгоритм повышения

Алгоритм повышения XGBoost 의 가족이라고 할 수 있다.
Алгоритм повышения 은 слабых учеников, 을 сильных учеников, 변환한다.
Ускорение — последовательный процесс.

XGBoost

xgboost 는 регрессионная классификация 에 모두 활용될 수 있다.

Проблема регрессии: бустер = gbtree와 gblinear 파라미터 모두 가능 / linear model에서는 регуляризация과 градиентный спуск 로 최적화
Задача классификации: booster = gbtree 파라미터를 사용 / 다음 tree는 이전 tree에서 오분류된 지점에 더 높은 가중치를 줌

Настройка параметров в XGBoost

이 글의 필자는 параметр와 관련해서 아래와 같이 말했다.

«использование xgboost без настройки параметров похоже на вождение автомобиля без переключения передач; ты никогда не сможешь увеличить скорость »

주요 Параметры

nround : максимальноеколичество итераций, аналогично количеству деревьев
eta : контролирует скорость обучения, чем меньше эта, тем медленнее вычисления.
гамма: контролирует регуляризацию
max_depth : глубина дерева, большая глубина -> сложная модель -> более высокая вероятность переобучения, должна быть настроена с помощью CV
min_child_weight : минимальное количество экземпляров, необходимое в дочернем узле (?), просто блокирует потенциальное взаимодействие функций, чтобы предотвратить переоснащение.
subsample : управляет количеством выборок, предоставляемых дереву.
colsample_bytree : количество функций, предоставляемых дереву.
цель: методы для функции потерь
eval_metric : методы оценки, RMSE/ошибка.

Учебники Kaggle

현재 현재 과 과 과 참여 참여 인 문제 는 가입 상품, 나이, bmi, 보험 이력 의 정보 등 기반 으로 을 위험군 에 따라서 따라서 따라서 따라서 따라서 따라서 따라서 따라서 따라서 따라서 따라서 따라서 문제 따라서 따라서 따라서 문제 문제 문제 따라서 문제 문제 따라서 문제 문제 따라서 문제 문제 문제 문제 문제 따라서 문제문제.

앞으로 확인해봐야할 것 : регуляризация, функция потерь, случайный лес