Давайте посадим деревья и сделаем лес!

Есть три типа «Дерева», которые мы можем использовать для классификации наших данных:

  1. Древо решений
  2. Начальные леса
  3. Усиленные деревья

Эти три типа концепций классификации похожи, однако «Bootstrap» и «Boosted Trees» делают что-то для улучшения деревьев, поэтому мы можем считать, что последние два являются расширенными версиями «Дерева решений».

Концепция

  • Шаг 1. Найдите максимальное значение Logworth для каждой переменной.

Оцените все возможные разделы для каждой переменной, чтобы выбрать раздел с максимальным значением Logworth, чтобы найти место, где находится оптимальное разделение для каждой переменной.

  • Шаг 2. Создайте первое правило раздела

Сравните Logworth каждой переменной и выберите большее значение Logworth переменной в качестве первого правила разделения.

  • Шаг 3. Повторите шаги 1 и 2.

После создания первого правила разделения повторите тот же процесс, чтобы найти оптимальное разделение каждой переменной; Продолжайте, пока дерево полностью не построится до точки, где каждый узел имеет 100% одного и того же класса.

We build the model on the training and balance complexity and accuracy on the validation
  • Шаг 4. Удалите самую сложную модель.

Сократите дерево для каждого узла и продолжайте сокращать до тех пор, пока не будут рассмотрены все поддеревья, чтобы найти самое простое дерево с наилучшей производительностью при проверке.

Построение модели

Анализ ► Прогнозное моделирование ► Раздел ► Y (целевая переменная), X (другие переменные), проверка (проверка)

Посмотрите кандидатов

Наши ряды будут разделены Доходом(101), поэтому ряды Доход≥101 будут с одной стороны, а ряды с Доходом ‹101 будут с другой стороны.

Нажмите "Разделить"

Судя по сюжету, мы уже получили много информации! Мы не будем размещать нашу рекламу на людях с доходом ниже 101.

Посмотрите отчет Leaf

в Leaf Report мы можем легко увидеть, как модель классифицирует данные до сих пор.

Нажмите «Перейти» и проверьте историю сплитов

JMP остановится в тот момент, когда производительность нашей модели по проверочным данным (Redline) начнет ухудшаться.

Обрежьте наше дерево

Мы видим, что от 5 до 11 улучшение производительности модели не сильно отличалось, поэтому мы используем матрицу путаницы, чтобы увидеть, должны ли мы уменьшить нашу сложность, пожертвовав нашей точностью.

Посмотрите на дерево

Мы можем вернуться, чтобы посмотреть на наше дерево, мы можем получить от него много информации.

Вклад столбца

Чтобы увидеть, какой столбец вносит наибольший вклад, мы можем проверить вклад столбца. Следовательно, мы можем использовать его для выбора переменных, если у нас слишком много переменных.

Дерево регрессии

Самая большая разница между деревом решений и деревом регрессии заключается в типе целевой переменной, вместо категориальной переменной дерево регрессии предсказывает непрерывную переменную. Способ, которым JMP находит раздел, заключается в том, чтобы найти наибольшую разницу между средними значениями записей с двух сторон, а не найти разницу в пропорции.

Плюсы и минусы

Преимущества деревьев

  • Простота использования и интерпретации
  • JMP автоматически выбирает и уменьшает переменную
  • Не требуют допущений статистических моделей
  • Может работать без обширной обработки отсутствующих данных

Недостатки деревьев

  • Может работать неэффективно, если в данных есть структура, которая плохо отражается горизонтальным или вертикальным разделением. Например, если структура данных нуждается в диагональном разбиении, деревья могут работать даже хуже, чем без использования модели.
  • Поскольку процесс имеет дело с одной переменной за раз, невозможно зафиксировать взаимодействия между переменными, мы должны создавать переменные взаимодействия вручную.

Методы дерева ансамбля

Чтобы сделать нашу модель дерева лучше, есть два метода ансамбля деревьев.

  1. Начальные леса
  2. Усиленные деревья

Начальные леса

Bootstrap случайным образом выбирает данные и строит множество деревьев, а затем собирает их в лес! Это дерево ансамбля учитывает более не столь важные переменные, чем наше базовое дерево. Таким образом, некоторая подробная информация будет захвачена в лесу, что позволит модели работать лучше.

Усиленные деревья

Boosted Trees строят деревья, чтобы исправить ошибки предыдущего дерева. Поэтому каждое дополнительное дерево специально настраивается на исправление ошибки предыдущего слоя в модели.