Дерево решений представляет собой структуру, подобную блок-схеме, в которой каждый внутренний узел представляет решение, основанное на входном признаке, каждая ветвь представляет собой результат решения, а каждый конечный узел представляет собой метку класса или прогнозируемое значение. Решения принимаются путем рекурсивного разбиения набора данных на основе определенного значения функции или условия, что приводит к древовидной структуре.

Построение дерева решений:

Чтобы построить дерево решений, нам нужно выбрать лучшую функцию и лучший порог для разделения набора данных на каждом узле. Выбор зависит от цели задачи (классификация или регрессия) и используемой меры примеси (примесь Джини, энтропия или среднеквадратическая ошибка).

Общие шаги построения дерева решений:

а) Начните со всего набора данных в корневом узле. б) Выберите лучший признак и порог для разделения набора данных. c) Создайте дочерние узлы, разделив набор данных на основе выбранного признака и порога. d) Повторите шаги b) и c) для каждого дочернего узла, пока не будет выполнен критерий остановки (например, максимальная глубина дерева, минимальное количество выборок на лист или чистые узлы).

Интуиция:

Представьте себе набор данных, содержащий информацию о фруктах, такую ​​как их цвет, форма и размер. Мы хотим создать модель, которая может классифицировать фрукт как яблоко, апельсин или банан на основе этих признаков. Дерево решений может быть построено для представления решений, которые приводят к правильной классификации фруктов. Например:

  • Если плод длинный, то это банан.
  • Если плод круглый и имеет цвет ближе к красному, это яблоко.
  • Если плод круглый и имеет цвет ближе к оранжевому, это апельсин.

Переоснащение и сокращение:

Деревья решений могут стать очень сложными, что приведет к переоснащению, если их не контролировать должным образом. Переобучение происходит, когда модель улавливает шум в данных и теряет способность обобщать невидимые данные. Чтобы предотвратить переоснащение, мы можем использовать такие методы, как обрезка, которая включает удаление некоторых ветвей или узлов из дерева на основе определенных критериев.

Преимущества и недостатки:

Преимущества деревьев решений включают в себя:

  • Легко понять и интерпретировать.
  • Может обрабатывать как числовые, так и категориальные функции.
  • Требуется небольшая предварительная обработка данных (например, нет необходимости в масштабировании функций).

К недостаткам деревьев решений можно отнести:

  • Склонен к переоснащению, особенно при работе с зашумленными данными или большим количеством функций.
  • Может быть чувствителен к небольшим изменениям данных, что приводит к нестабильности деревьев.
  • Жадный характер алгоритма может не привести к оптимальному дереву.

Давайте построим больше интуиции вокруг технических терминов, используемых в контексте деревьев решений.

Лучшая характеристика и пороговое значение:

При построении дерева решений нам нужно выбрать наиболее информативную функцию и лучший порог для разделения набора данных в каждом узле. Наилучшей функцией является та, которая обеспечивает наибольший прирост информации (или наибольшее уменьшение примесей) при разделении набора данных. Порог — это значение, используемое для разделения данных на две группы на основе выбранного признака.

Например, в задаче классификации фруктов мы можем выбрать функцию «форма» и пороговое значение «круглый», чтобы разделить набор данных, что означает, что все круглые фрукты идут к одному дочернему узлу, а все некруглые фрукты идут к другому дочернему узлу. узел.

Меры защиты от загрязнений

Меры примесей используются для оценки качества разделения в дереве решений. Они помогают количественно определить, насколько «смешаны» классы или целевые значения в узле. Меньшая примесь указывает на лучшее расщепление. Общие меры загрязнения включают:

  • Gini Impurity: используется для задач классификации, Gini Impurity измеряет вероятность неправильной классификации экземпляра, если он был помечен случайным образом на основе распределения классов в узле.
  • Энтропия: Энтропия, также используемая для задач классификации, измеряет количество «беспорядка» или «неопределенности» в узле. Он основан на концепции теории информации.
  • Среднеквадратическая ошибка (MSE): используется для задач регрессии, MSE измеряет среднеквадратичную разницу между фактическими и прогнозируемыми целевыми значениями.

Критерии остановки:

Критерии остановки — это условия, определяющие, когда алгоритм дерева решений должен прекратить рост дерева. Общие критерии остановки включают:

  • Максимальная глубина дерева: ограничьте максимальную глубину дерева, чтобы предотвратить переоснащение.
  • Минимум выборок на лист: требуется минимальное количество экземпляров в каждом конечном узле, чтобы дерево не стало слишком специфичным для обучающих данных.
  • Чистые узлы: остановить рост дерева, когда все экземпляры в узле принадлежат к одному классу (для классификации) или имеют одинаковое целевое значение (для регрессии).

Сокращение:

Сокращение — это метод, используемый для упрощения дерева решений и уменьшения переобучения путем удаления ветвей или узлов, которые предоставляют мало дополнительной информации или вообще не предоставляют ее. Два распространенных типа обрезки:

  • Предварительная обрезка: остановить рост дерева на основе критериев остановки при построении дерева.
  • Постобрезка: сначала создайте полное дерево, а затем удалите ветви или узлы на основе набора данных проверки или показателей сложности (например, количества узлов или глубины дерева).

На следующем уроке мы перейдем к более продвинутому и мощному алгоритму, основанному на деревьях решений: случайных лесах.