Часто встречающиеся термины,

Data Domain: = узел

События: = Наблюдения

Поддомены: = листья текущего дерева

  • Иерархические модели обучения с учителем.
  • Основная иерархическая модель - ДЕРЕВО РЕШЕНИЙ.
  • Он имеет 2 категории,

1. Дерево классификации

2. Дерево регрессии

для построения дерева решений - - › алгоритмов разделения дерева

для построения эффективного дерева с помощью обучения - - › требует количественных измерений

  • Эти меры:

1. энтропия

2. кросс-энтропия

3. Примесь Джини

4. Получение информации

  • Обсуждение «алгоритмов обучения» подходит как для деревьев классификации, так и для деревьев регрессии ».

Древо решений

  • Определяется как «основанная на правилах техника построения двоичного дерева».
  • Но проще ИНТЕРПРЕТировать как «метод иерархического разделения доменов».
  • Это модель обучения с учителем, которая ИЕРАРХИЧЕСКИ «отображает» ДОМЕН ДАННЫХ на НАБОР ОТВЕТОВ.
  • Делит домен данных (узел) рекурсивно на 2 поддомена (имеют БОЛЬШЕ прирост информации), ЧЕМ был до разделения.
  • ЦЕЛЬ НАБЛЮДАЕМОГО обучения ==== › Классификация данных
  • Получение информации - - означает - → ПРОСТОТА классификации в поддоменах (созданных путем разделения).
  • Алгоритмы оптимизации - -GOAL - - - › находят наилучшее разделение (давая максимальный информационный выигрыш).

Data Domain: = D (в отсортированном списке)

Ярлыки классов: = L (соответствующие)

Получение информации: = Ii

2 субдомена = D1, D2

Два ярлыка домена = L1, L2

Лучшее разделение = м

  • Распространение (или Схема распределения) по ярлыкам классов → определяет простоту классификации.
  • Если m считается лучшим разбиением,

средний (Ii1, Ii2) ›Ii

Здесь Ii1, Ii2 - информационный прирост 2 подобластей, полученный после первого предыдущего разделения.

  • Нам нужен ХОРОШИЙ качественный показатель для измерения получения информации.
  • p0, p1 = ›вероятности класса 0, 1 взяты из домена D.

|p0 — p1| — — > 1

- в этой области доминирует один конкретный класс.

- домен DIVISION НЕ требуется.

С другой стороны,

|p0 — p1| — — > 0

класс имеют равное господство в этой области

необходимо дальнейшее разделение

1)

  • q0, q1 = ›вероятности класса 0, 1 взяты из субдомена D1.
  • Если наше разделение Эффективно,

q0 > p0

OR

q1 > p1

2)

3)

- Абсолютные различия - это КОЛИЧЕСТВЕННЫЕ МЕРЫ, которые измеряют ПРОПОРЦИОННОСТЬ между классами в соответствующих субдоменах.

Типы деревьев решений

  • Дерево решений по классификации - ›предсказать метку класса ( дискретный)
  • Дерево решений регрессии - - ›помогает предсказать значение (непрерывно)

для переменной ответа

Дерево классификации

  • Нам нужно построить дерево на этапе обучения.
  • Распространение разделения дерева разделяет область данных.
  • «генерация» ПРОСТОГО, НЕСКОЛЬКИХ, ТОНКИХ слоев доменов данных состоит из РАЗДЕЛЕННЫХ РЕГИОНОВ.
  • Классифицированные субдомены должны отличаться друг от друга «Непересекающиеся субдомены».
  • Основные параметры,

- - «значения характеристик», используемые для разделения дерева в определенном узле.

- - эти параметры ОБУЧЕНЫ с использованием ИНФОРМАЦИИ В качестве количественной меры.

- - комбинация выбранных параметров - - ›классификатор

  • Субдомены (листья текущего дерева) также содержат «информацию о классе».
  • «критерию разделения» требуются «параметры решения», которые образуют модель классификации.
  • Параметры решения: = функция и ее разделение

- - - - - за счет максимизации получения информации

Дерево регрессии

  • Это помогает присвоить значение новым данным.
  • Он делит домен данных на непересекающиеся, прямоугольные поддомены с помощью «разделения функций» и КАРТЫ поддоменов на НЕПРЕРЫВНЫЕ группы ОТВЕТОВ, РАССЧИТАННЫХ с критерием минимум ОШИБКИ.
  • Метод имеет 4 задачи,

1. выбор функции для узла.

2. параметризация места разделения.

3. параметризация глубины дерева

4. оценка переменных ответа.

Модель обучения дерева решений

  • Моделирование - -средний - - › определение функции Или КАРТИРОВАНИЕ между ДАННЫМИ ДАННЫМИ и ОТВЕТОМ , за которым следует ПАРАМЕТРИЗАЦИЯ для модели и ОПТИМИЗАЦИЯ для параметров.

Параметризация: -

- «контролируемая модель» должна быть ПАРАМЕТРИРОВАНА, чтобы ее можно было ОБУЧАТЬ, ПРОВЕРИТЬ И ИСПЫТАТЬ (это верно и для дерева решений) .

- как параметризовать древовидную структуру? как найти параметры?

- При построении параметров,

-узлы разделены,

-листья образуются

рекурсивно.

- мы можем параметризовать,

1. совокупность функций для узла.

2. порог, разделяющий узел и набор функций на 2 подмножества.

3. количество уровней, которое должно иметь все дерево.

[4. особенности.]

- параметризация: -

* параметр1 * выберите функции для корневого узла и промежуточных узлов.

1. Может быть выбран случайным образом

2. Может выбрать функцию, которая дает максимальное увеличение информации / уменьшение ошибок.

* параметр2 * параметр для критерия разделения

1. может выбрать «статистические методы; среднее / медиана », чтобы найти место разделения

2. Найдите разделенное место, которое дает приемлемую информацию.

* параметр3 * выберите параметр для ОСТАНОВИТЬ дерево СТРОИТЕЛЬСТВО. == › # из уровней в дереве решений: = - параметр.

- Оптимизация: -

** выберите АЛГОРИТМ, который помогает оптимизировать параметры. == › окончательное дерево решений - ОПТИМАЛЬНОЕ ==› дерево может выполнять очень хорошие прогнозы

** может привести к вычислительно дорогостоящему процессу.

ОПТИМИЗАЦИЯ: -

  • разделяет дерево решений ЭФФЕКТИВНО при обучении.
  • Это определяет, какая функция должна быть выбрана ПЕРВЫМ, чтобы начать построение дерева?

Какую функцию необходимо выбрать @ ПРОМЕЖУТОЧНЫЕ шаги построения дерева?

  • Следовательно, нам нужна ХОРОШАЯ количественная мера.
  • Построение дерева - -means - - › генерирует ЛИСТЬЯ / ВЕТКИ из узла путем выполнения алгоритма ИТЕРАЦИОННО .

Количественные измерения

  • Нам нужны количественные меры в двух местах,

1. для измерения получения информации при расщеплении

2. измерить ЗНАЧИМОСТЬ в разнице классов в каждом узле, чтобы принять решение о дальнейшем разбиении.

  • Для полезных мер требования:

1. первые требования

1. энтропия

2. Примесь Джини

3. получение информации

2. второе требование

1. пропорции класса

2. считать различия

3. вероятностные меры (отношения и проценты)

ЭНТРОПИЯ И КРОСС-ЭНТРОПИЯ

  • на основе «соразмерности событий».
  • если одно событие происходит чаще, чем другое в МЕСТО или с ОБЪЕКТОМ,

затем мы ИМЕЕМ ХОРОШЕЕ ЗНАНИЕ об этом МЕСТЕ или ОБЪЕКТЕ относительно события БОЛЬШИНСТВО.

  • если оба события происходят одинаковое ЧИСЛО раз в этом МЕСТЕ или с OBEJCT, то это ТРУДНО охарактеризовать.

  • Этот график построен в зависимости от индекса вероятности VS энтропии.

Джини примеси

  • используется для измерения НЕПРАВИЛЬНОЙ маркировки с СООТВЕТСТВУЮЩИМИ ШАБЛОНАМИ.
  • Джини - означает - - ›« обобщенный индекс неравенства »
  • может использоваться для построения дерева решений вместо энтропии

  • различия в показателях Джини и энтропии

1. распространение сюжета

2. асимметрия (симметрия)

Энтропия ==== ›полезно, когда« несколько событий происходят в КОНКРЕТНОМ экземпляре или местоположении ».

Кросс-энтропия ==== ›полезно, когда« несколько событий (но одинаковых событий) происходят в двух разных экземплярах ИЛИ местоположения.

Энтропия ===== ›события происходят из ЖЕСТКОГО СТАТИСТИЧЕСКОГО распределения

X-Entropy ===== ›события из 2 разных распределений.

энтропия в распределении = ›внутренняя ошибка

Кросс-энтропия = ›между ошибками

Получение информации

  • двоичные события
  • энтропия ИЛИ Джини используется для «описания этих характеристик».

Алгоритм обучения дерева решений

  • ЦЕЛЬ :-

* чтобы сосредоточиться на КАЖДОМ одном -МЕРИТЕЛЬНОМ подпространстве (один объект за один раз e),

* выберите лучшую функцию (лучшее одномерное подпространство) и ЛУЧШЕЕ РАЗДЕЛЕННОЕ МЕСТО,

* извлеките значение функции в наилучшем месте разделения,

* разделить домен на 2 поддомена.

ПОВТОРИТЬ до тех пор, пока не будет ** НЕТ **. Разделение домена не требуется

Алгоритм обучения

  • первое и самое важное требование = ›лучшая функция и наилучшее разделение местоположения
  • параметризация и оптимизация ВЫПОЛНЯЮТСЯ «одновременно» @ КАЖДЫЙ узел ПОКА СОЗДАЕТ дерево решений.

Ссылка :-

Модели машинного обучения и алгоритмы классификации больших данных, Шан Сутхаран; Глава 10 - Изучение дерева принятия решений