Изучение дерева решений - важное понимание

Часто встречающиеся термины,

Data Domain: = узел

События: = Наблюдения

Поддомены: = листья текущего дерева

Иерархические модели обучения с учителем.
Основная иерархическая модель - ДЕРЕВО РЕШЕНИЙ.
Он имеет 2 категории,

1. Дерево классификации

2. Дерево регрессии

для построения дерева решений - - › алгоритмов разделения дерева

для построения эффективного дерева с помощью обучения - - › требует количественных измерений

Эти меры:

1. энтропия

2. кросс-энтропия

3. Примесь Джини

4. Получение информации

Обсуждение «алгоритмов обучения» подходит как для деревьев классификации, так и для деревьев регрессии ».

Древо решений

Определяется как «основанная на правилах техника построения двоичного дерева».
Но проще ИНТЕРПРЕТировать как «метод иерархического разделения доменов».
Это модель обучения с учителем, которая ИЕРАРХИЧЕСКИ «отображает» ДОМЕН ДАННЫХ на НАБОР ОТВЕТОВ.
Делит домен данных (узел) рекурсивно на 2 поддомена (имеют БОЛЬШЕ прирост информации), ЧЕМ был до разделения.
ЦЕЛЬ НАБЛЮДАЕМОГО обучения ==== › Классификация данных
Получение информации - - означает - → ПРОСТОТА классификации в поддоменах (созданных путем разделения).
Алгоритмы оптимизации - -GOAL - - - › находят наилучшее разделение (давая максимальный информационный выигрыш).

Data Domain: = D (в отсортированном списке)

Ярлыки классов: = L (соответствующие)

Получение информации: = Ii

2 субдомена = D1, D2

Два ярлыка домена = L1, L2

Лучшее разделение = м

Распространение (или Схема распределения) по ярлыкам классов → определяет простоту классификации.
Если m считается лучшим разбиением,

средний (Ii1, Ii2) ›Ii

Здесь Ii1, Ii2 - информационный прирост 2 подобластей, полученный после первого предыдущего разделения.

Нам нужен ХОРОШИЙ качественный показатель для измерения получения информации.
p0, p1 = ›вероятности класса 0, 1 взяты из домена D.

|p0 — p1| — — > 1

- в этой области доминирует один конкретный класс.

- домен DIVISION НЕ требуется.

С другой стороны,

|p0 — p1| — — > 0

класс имеют равное господство в этой области

необходимо дальнейшее разделение

q0, q1 = ›вероятности класса 0, 1 взяты из субдомена D1.
Если наше разделение Эффективно,

q0 > p0

OR

q1 > p1

- Абсолютные различия - это КОЛИЧЕСТВЕННЫЕ МЕРЫ, которые измеряют ПРОПОРЦИОННОСТЬ между классами в соответствующих субдоменах.

Типы деревьев решений

Дерево решений по классификации - ›предсказать метку класса ( дискретный)
Дерево решений регрессии - - ›помогает предсказать значение (непрерывно)

для переменной ответа

Дерево классификации

Нам нужно построить дерево на этапе обучения.
Распространение разделения дерева разделяет область данных.
«генерация» ПРОСТОГО, НЕСКОЛЬКИХ, ТОНКИХ слоев доменов данных состоит из РАЗДЕЛЕННЫХ РЕГИОНОВ.
Классифицированные субдомены должны отличаться друг от друга «Непересекающиеся субдомены».
Основные параметры,

- - «значения характеристик», используемые для разделения дерева в определенном узле.

- - эти параметры ОБУЧЕНЫ с использованием ИНФОРМАЦИИ В качестве количественной меры.

- - комбинация выбранных параметров - - ›классификатор

Субдомены (листья текущего дерева) также содержат «информацию о классе».
«критерию разделения» требуются «параметры решения», которые образуют модель классификации.
Параметры решения: = функция и ее разделение

- - - - - за счет максимизации получения информации

Дерево регрессии

Это помогает присвоить значение новым данным.
Он делит домен данных на непересекающиеся, прямоугольные поддомены с помощью «разделения функций» и КАРТЫ поддоменов на НЕПРЕРЫВНЫЕ группы ОТВЕТОВ, РАССЧИТАННЫХ с критерием минимум ОШИБКИ.
Метод имеет 4 задачи,

1. выбор функции для узла.

2. параметризация места разделения.

3. параметризация глубины дерева

4. оценка переменных ответа.

Модель обучения дерева решений

Моделирование - -средний - - › определение функции Или КАРТИРОВАНИЕ между ДАННЫМИ ДАННЫМИ и ОТВЕТОМ , за которым следует ПАРАМЕТРИЗАЦИЯ для модели и ОПТИМИЗАЦИЯ для параметров.

Параметризация: -

- «контролируемая модель» должна быть ПАРАМЕТРИРОВАНА, чтобы ее можно было ОБУЧАТЬ, ПРОВЕРИТЬ И ИСПЫТАТЬ (это верно и для дерева решений) .

- как параметризовать древовидную структуру? как найти параметры?

- При построении параметров,

-узлы разделены,

-листья образуются

рекурсивно.

- мы можем параметризовать,

1. совокупность функций для узла.

2. порог, разделяющий узел и набор функций на 2 подмножества.

3. количество уровней, которое должно иметь все дерево.

[4. особенности.]

- параметризация: -

* параметр1 * выберите функции для корневого узла и промежуточных узлов.

1. Может быть выбран случайным образом

2. Может выбрать функцию, которая дает максимальное увеличение информации / уменьшение ошибок.

* параметр2 * параметр для критерия разделения

1. может выбрать «статистические методы; среднее / медиана », чтобы найти место разделения

2. Найдите разделенное место, которое дает приемлемую информацию.

* параметр3 * выберите параметр для ОСТАНОВИТЬ дерево СТРОИТЕЛЬСТВО. == › # из уровней в дереве решений: = - параметр.

- Оптимизация: -

** выберите АЛГОРИТМ, который помогает оптимизировать параметры. == › окончательное дерево решений - ОПТИМАЛЬНОЕ ==› дерево может выполнять очень хорошие прогнозы

** может привести к вычислительно дорогостоящему процессу.

ОПТИМИЗАЦИЯ: -

разделяет дерево решений ЭФФЕКТИВНО при обучении.
Это определяет, какая функция должна быть выбрана ПЕРВЫМ, чтобы начать построение дерева?

Какую функцию необходимо выбрать @ ПРОМЕЖУТОЧНЫЕ шаги построения дерева?

Следовательно, нам нужна ХОРОШАЯ количественная мера.
Построение дерева - -means - - › генерирует ЛИСТЬЯ / ВЕТКИ из узла путем выполнения алгоритма ИТЕРАЦИОННО .

Количественные измерения

Нам нужны количественные меры в двух местах,

1. для измерения получения информации при расщеплении

2. измерить ЗНАЧИМОСТЬ в разнице классов в каждом узле, чтобы принять решение о дальнейшем разбиении.

Для полезных мер требования:

1. первые требования

1. энтропия

2. Примесь Джини

3. получение информации

2. второе требование

1. пропорции класса

2. считать различия

3. вероятностные меры (отношения и проценты)

ЭНТРОПИЯ И КРОСС-ЭНТРОПИЯ

на основе «соразмерности событий».
если одно событие происходит чаще, чем другое в МЕСТО или с ОБЪЕКТОМ,

затем мы ИМЕЕМ ХОРОШЕЕ ЗНАНИЕ об этом МЕСТЕ или ОБЪЕКТЕ относительно события БОЛЬШИНСТВО.

если оба события происходят одинаковое ЧИСЛО раз в этом МЕСТЕ или с OBEJCT, то это ТРУДНО охарактеризовать.

Этот график построен в зависимости от индекса вероятности VS энтропии.

Джини примеси

используется для измерения НЕПРАВИЛЬНОЙ маркировки с СООТВЕТСТВУЮЩИМИ ШАБЛОНАМИ.
Джини - означает - - ›« обобщенный индекс неравенства »
может использоваться для построения дерева решений вместо энтропии

различия в показателях Джини и энтропии

1. распространение сюжета

2. асимметрия (симметрия)

Энтропия ==== ›полезно, когда« несколько событий происходят в КОНКРЕТНОМ экземпляре или местоположении ».

Кросс-энтропия ==== ›полезно, когда« несколько событий (но одинаковых событий) происходят в двух разных экземплярах ИЛИ местоположения.

Энтропия ===== ›события происходят из ЖЕСТКОГО СТАТИСТИЧЕСКОГО распределения

X-Entropy ===== ›события из 2 разных распределений.

энтропия в распределении = ›внутренняя ошибка

Кросс-энтропия = ›между ошибками

Получение информации

двоичные события
энтропия ИЛИ Джини используется для «описания этих характеристик».

Алгоритм обучения дерева решений

ЦЕЛЬ :-

* чтобы сосредоточиться на КАЖДОМ одном -МЕРИТЕЛЬНОМ подпространстве (один объект за один раз e),

* выберите лучшую функцию (лучшее одномерное подпространство) и ЛУЧШЕЕ РАЗДЕЛЕННОЕ МЕСТО,

* извлеките значение функции в наилучшем месте разделения,

* разделить домен на 2 поддомена.

ПОВТОРИТЬ до тех пор, пока не будет ** НЕТ **. Разделение домена не требуется

Алгоритм обучения

первое и самое важное требование = ›лучшая функция и наилучшее разделение местоположения
параметризация и оптимизация ВЫПОЛНЯЮТСЯ «одновременно» @ КАЖДЫЙ узел ПОКА СОЗДАЕТ дерево решений.

Ссылка :-

Модели машинного обучения и алгоритмы классификации больших данных, Шан Сутхаран; Глава 10 - Изучение дерева принятия решений