При анализе решений дерево решений может использоваться для визуального и явного представления решений и принятия решений. Как следует из названия, он использует древовидную модель решений. Деревья решений - одна из простейших и в то же время самых полезных структур машинного обучения. Деревья решений, как следует из названия, - это деревья решений.

Алгоритм дерева решений

Дерево решений - это древовидная структура, подобная блок-схеме, где внутренний узел представляет функцию (или атрибут), ветвь представляет правило принятия решения, а каждый конечный узел представляет результат. Самый верхний узел в дереве решений известен как корневой узел. Он обучается разделению на основе значения атрибута. Он рекурсивно разбивает дерево на части, вызывая рекурсивное разбиение. Эта структура, похожая на блок-схему, помогает вам в принятии решений. Это визуализация в виде блок-схемы, которая легко имитирует мышление человеческого уровня. Вот почему деревья решений легко понять и интерпретировать.

Давайте проиллюстрируем это на примере

Предположим, вы хотите пойти на пикник с семьей в определенный день. Но прежде чем выйти на улицу и хорошо провести время, вам нужно проверить погодные условия, потому что плохая погода может просто испортить удовольствие. Итак, как вы решите? Допустим, вы выходите и проверяете, жарко или холодно, проверяете скорость ветра и влажность, какая сейчас погода, т. Е. Солнечно, пасмурно или дождливо. Вы принимаете во внимание все эти факторы, чтобы решить, хотите ли вы выходить на улицу или нет.

В таких случаях дерево решений было бы отличным способом представления таких данных, потому что оно учитывает все возможные пути, которые могут привести к окончательному решению, следуя древовидной структуре.

Как мы узнаем, где делиться?

Мера выбора атрибута - это эвристика для выбора критерия разделения, который наиболее подходит для принятия решения о том, как разделить данные таким образом, чтобы в результате были выделены отдельные классы. Меры выбора атрибутов также известны как правила разделения, поскольку они определяют, как точки данных должны быть разделены на определенном уровне в дереве решений. Атрибут, который имеет наилучшую оценку для меры, выбирается в качестве атрибута разделения для данных точек данных.

Некоторые основные критерии выбора атрибутов:

  1. Получение информации
  2. Коэффициент усиления
  3. Индекс Джини

Когда прекратить расщепление?

Поскольку проблема обычно имеет большой набор функций, она приводит к большому количеству разбиений, что, в свою очередь, дает огромное дерево. Такие деревья сложны и могут привести к переобучению. Итак, нам нужно знать, когда остановиться. Один из способов - установить максимальную глубину вашей модели. Максимальная глубина относится к длине самого длинного пути от корня до листа.

Обрезка

Когда дерево решений построено, многие ветви будут отражать аномалии в обучающих данных из-за шума или выбросов. Незначительные изменения значений могут привести к совершенно другим результатам. При обрезке обычно используются статистические меры для удаления наименее надежных ветвей или ветвей, подкрепленных небольшим количеством образцов.

Обрезанные деревья, как правило, меньше и менее сложны, поэтому их легче понять. Кроме того, они обычно быстрее и лучше классифицируют данные независимых тестов.

Преимущества деревьев решений

  1. Интерпретируемость и простота. Деревья решений могут генерировать понятные правила. Деревья просты для понимания и интерпретации, и их можно визуализировать.
  2. Хорошо обрабатывайте все виды данных. Деревья решений могут обрабатывать как числовые, так и категориальные данные, что делает их широко используемыми.
  3. Непараметрические. Деревья решений считаются непараметрическими. Это означает, что деревья решений не имеют никаких предположений о пространстве точек данных или структуре классификатора, и нет необходимости принимать какие-либо исходные значения.
  4. Надежность. Деревья решений требуют меньше усилий от пользователей для предварительной обработки данных. На них также не влияют выбросы и пропущенные значения.
  5. Быстро. Стоимость использования дерева (т. е. составления прогнозов) логарифмически равна количеству точек данных, используемых для обучения дерева.

Недостатки деревьев решений

  1. Переобучение. Из-за переобучения могут развиться слишком сложные деревья. Обрезка, установка минимального количества выборок, необходимых для конечного узла, или установка максимальной глубины дерева - необходимые шаги, чтобы избежать этой проблемы.
  2. Неустойчивость. Деревья решений могут быть нестабильными, поскольку небольшие изменения в данных могут привести к созданию совершенно другого дерева. Ансамблевые методы, такие как мешковина и бустинг, могут помочь избежать такой нестабильности в результатах.
  3. Предвзятость: учащиеся дерева решений создают предвзятые деревья, если некоторые классы с большей вероятностью могут быть предсказаны или имеют большее количество выборок для их поддержки. Балансировка набора данных перед индукцией дерева решений - хорошая практика, чтобы предоставить каждому классу справедливые и равные шансы.
  4. Оптимальность: проблема обучения оптимальному дереву решений известна как NP-полная, поскольку количество выборок или небольшое изменение атрибута разделения может кардинально изменить результаты.