Часто встречающиеся термины,
Data Domain: = узел
События: = Наблюдения
Поддомены: = листья текущего дерева
- Иерархические модели обучения с учителем.
- Основная иерархическая модель - ДЕРЕВО РЕШЕНИЙ.
- Он имеет 2 категории,
1. Дерево классификации
2. Дерево регрессии
для построения дерева решений - - › алгоритмов разделения дерева
для построения эффективного дерева с помощью обучения - - › требует количественных измерений
- Эти меры:
1. энтропия
2. кросс-энтропия
3. Примесь Джини
4. Получение информации
- Обсуждение «алгоритмов обучения» подходит как для деревьев классификации, так и для деревьев регрессии ».
Древо решений
- Определяется как «основанная на правилах техника построения двоичного дерева».
- Но проще ИНТЕРПРЕТировать как «метод иерархического разделения доменов».
- Это модель обучения с учителем, которая ИЕРАРХИЧЕСКИ «отображает» ДОМЕН ДАННЫХ на НАБОР ОТВЕТОВ.
- Делит домен данных (узел) рекурсивно на 2 поддомена (имеют БОЛЬШЕ прирост информации), ЧЕМ был до разделения.
- ЦЕЛЬ НАБЛЮДАЕМОГО обучения ==== › Классификация данных
- Получение информации - - означает - → ПРОСТОТА классификации в поддоменах (созданных путем разделения).
- Алгоритмы оптимизации - -GOAL - - - › находят наилучшее разделение (давая максимальный информационный выигрыш).
Data Domain: = D (в отсортированном списке)
Ярлыки классов: = L (соответствующие)
Получение информации: = Ii
2 субдомена = D1, D2
Два ярлыка домена = L1, L2
Лучшее разделение = м
- Распространение (или Схема распределения) по ярлыкам классов → определяет простоту классификации.
- Если m считается лучшим разбиением,
средний (Ii1, Ii2) ›Ii
Здесь Ii1, Ii2 - информационный прирост 2 подобластей, полученный после первого предыдущего разделения.
- Нам нужен ХОРОШИЙ качественный показатель для измерения получения информации.
- p0, p1 = ›вероятности класса 0, 1 взяты из домена D.
|p0 — p1| — — > 1
- в этой области доминирует один конкретный класс.
- домен DIVISION НЕ требуется.
С другой стороны,
|p0 — p1| — — > 0
класс имеют равное господство в этой области
необходимо дальнейшее разделение
1)
- q0, q1 = ›вероятности класса 0, 1 взяты из субдомена D1.
- Если наше разделение Эффективно,
q0 > p0
OR
q1 > p1
2)
3)
- Абсолютные различия - это КОЛИЧЕСТВЕННЫЕ МЕРЫ, которые измеряют ПРОПОРЦИОННОСТЬ между классами в соответствующих субдоменах.
Типы деревьев решений
- Дерево решений по классификации - ›предсказать метку класса ( дискретный)
- Дерево решений регрессии - - ›помогает предсказать значение (непрерывно)
для переменной ответа
Дерево классификации
- Нам нужно построить дерево на этапе обучения.
- Распространение разделения дерева разделяет область данных.
- «генерация» ПРОСТОГО, НЕСКОЛЬКИХ, ТОНКИХ слоев доменов данных состоит из РАЗДЕЛЕННЫХ РЕГИОНОВ.
- Классифицированные субдомены должны отличаться друг от друга «Непересекающиеся субдомены».
- Основные параметры,
- - «значения характеристик», используемые для разделения дерева в определенном узле.
- - эти параметры ОБУЧЕНЫ с использованием ИНФОРМАЦИИ В качестве количественной меры.
- - комбинация выбранных параметров - - ›классификатор
- Субдомены (листья текущего дерева) также содержат «информацию о классе».
- «критерию разделения» требуются «параметры решения», которые образуют модель классификации.
- Параметры решения: = функция и ее разделение
- - - - - за счет максимизации получения информации
Дерево регрессии
- Это помогает присвоить значение новым данным.
- Он делит домен данных на непересекающиеся, прямоугольные поддомены с помощью «разделения функций» и КАРТЫ поддоменов на НЕПРЕРЫВНЫЕ группы ОТВЕТОВ, РАССЧИТАННЫХ с критерием минимум ОШИБКИ.
- Метод имеет 4 задачи,
1. выбор функции для узла.
2. параметризация места разделения.
3. параметризация глубины дерева
4. оценка переменных ответа.
Модель обучения дерева решений
- Моделирование - -средний - - › определение функции Или КАРТИРОВАНИЕ между ДАННЫМИ ДАННЫМИ и ОТВЕТОМ , за которым следует ПАРАМЕТРИЗАЦИЯ для модели и ОПТИМИЗАЦИЯ для параметров.
Параметризация: -
- «контролируемая модель» должна быть ПАРАМЕТРИРОВАНА, чтобы ее можно было ОБУЧАТЬ, ПРОВЕРИТЬ И ИСПЫТАТЬ (это верно и для дерева решений) .
- как параметризовать древовидную структуру? как найти параметры?
- При построении параметров,
-узлы разделены,
-листья образуются
рекурсивно.
- мы можем параметризовать,
1. совокупность функций для узла.
2. порог, разделяющий узел и набор функций на 2 подмножества.
3. количество уровней, которое должно иметь все дерево.
[4. особенности.]
- параметризация: -
* параметр1 * выберите функции для корневого узла и промежуточных узлов.
1. Может быть выбран случайным образом
2. Может выбрать функцию, которая дает максимальное увеличение информации / уменьшение ошибок.
* параметр2 * параметр для критерия разделения
1. может выбрать «статистические методы; среднее / медиана », чтобы найти место разделения
2. Найдите разделенное место, которое дает приемлемую информацию.
* параметр3 * выберите параметр для ОСТАНОВИТЬ дерево СТРОИТЕЛЬСТВО. == › # из уровней в дереве решений: = - параметр.
- Оптимизация: -
** выберите АЛГОРИТМ, который помогает оптимизировать параметры. == › окончательное дерево решений - ОПТИМАЛЬНОЕ ==› дерево может выполнять очень хорошие прогнозы
** может привести к вычислительно дорогостоящему процессу.
ОПТИМИЗАЦИЯ: -
- разделяет дерево решений ЭФФЕКТИВНО при обучении.
- Это определяет, какая функция должна быть выбрана ПЕРВЫМ, чтобы начать построение дерева?
Какую функцию необходимо выбрать @ ПРОМЕЖУТОЧНЫЕ шаги построения дерева?
- Следовательно, нам нужна ХОРОШАЯ количественная мера.
- Построение дерева - -means - - › генерирует ЛИСТЬЯ / ВЕТКИ из узла путем выполнения алгоритма ИТЕРАЦИОННО .
Количественные измерения
- Нам нужны количественные меры в двух местах,
1. для измерения получения информации при расщеплении
2. измерить ЗНАЧИМОСТЬ в разнице классов в каждом узле, чтобы принять решение о дальнейшем разбиении.
- Для полезных мер требования:
1. первые требования
1. энтропия
2. Примесь Джини
3. получение информации
2. второе требование
1. пропорции класса
2. считать различия
3. вероятностные меры (отношения и проценты)
ЭНТРОПИЯ И КРОСС-ЭНТРОПИЯ
- на основе «соразмерности событий».
- если одно событие происходит чаще, чем другое в МЕСТО или с ОБЪЕКТОМ,
затем мы ИМЕЕМ ХОРОШЕЕ ЗНАНИЕ об этом МЕСТЕ или ОБЪЕКТЕ относительно события БОЛЬШИНСТВО.
- если оба события происходят одинаковое ЧИСЛО раз в этом МЕСТЕ или с OBEJCT, то это ТРУДНО охарактеризовать.
- Этот график построен в зависимости от индекса вероятности VS энтропии.
Джини примеси
- используется для измерения НЕПРАВИЛЬНОЙ маркировки с СООТВЕТСТВУЮЩИМИ ШАБЛОНАМИ.
- Джини - означает - - ›« обобщенный индекс неравенства »
- может использоваться для построения дерева решений вместо энтропии
- различия в показателях Джини и энтропии
1. распространение сюжета
2. асимметрия (симметрия)
Энтропия ==== ›полезно, когда« несколько событий происходят в КОНКРЕТНОМ экземпляре или местоположении ».
Кросс-энтропия ==== ›полезно, когда« несколько событий (но одинаковых событий) происходят в двух разных экземплярах ИЛИ местоположения.
Энтропия ===== ›события происходят из ЖЕСТКОГО СТАТИСТИЧЕСКОГО распределения
X-Entropy ===== ›события из 2 разных распределений.
энтропия в распределении = ›внутренняя ошибка
Кросс-энтропия = ›между ошибками
Получение информации
- двоичные события
- энтропия ИЛИ Джини используется для «описания этих характеристик».
Алгоритм обучения дерева решений
- ЦЕЛЬ :-
* чтобы сосредоточиться на КАЖДОМ одном -МЕРИТЕЛЬНОМ подпространстве (один объект за один раз e),
* выберите лучшую функцию (лучшее одномерное подпространство) и ЛУЧШЕЕ РАЗДЕЛЕННОЕ МЕСТО,
* извлеките значение функции в наилучшем месте разделения,
* разделить домен на 2 поддомена.
ПОВТОРИТЬ до тех пор, пока не будет ** НЕТ **. Разделение домена не требуется
Алгоритм обучения
- первое и самое важное требование = ›лучшая функция и наилучшее разделение местоположения
- параметризация и оптимизация ВЫПОЛНЯЮТСЯ «одновременно» @ КАЖДЫЙ узел ПОКА СОЗДАЕТ дерево решений.
Ссылка :-
Модели машинного обучения и алгоритмы классификации больших данных, Шан Сутхаран; Глава 10 - Изучение дерева принятия решений