В этом уроке мы узнаем, как использовать алгоритм обучения дерева решений. У нас есть очень практичный вариант использования: как получить пятерку в классе?

Если вы амбициозный студент, вы, вероятно, захотите получить пятерку по каждому из своих курсов. Допустим, мы можем определить, получите ли вы пятерку, основываясь на трех простых решениях:

  1. Читать учебник
  2. Делай свою домашнюю работу
  3. Посещать занятия

Вы были хорошим учеником и вели учет курсов, на которых вы сделали этот выбор. Они образуют примерный набор данных, который мы можем использовать для изучения дерева решений. Вот как они выглядят:

Алгоритм

Это рекурсивный алгоритм. Посмотрите на строку, где мы возвращаем поддерево. Базовыми случаями алгоритма являются первые два условия. Либо у нас больше нет примеров для классификации, либо все примеры имеют одинаковую классификацию.

значение множества

Выбирает наиболее распространенное выходное значение среди набора примеров случайного разрыва связей.

макс. аргумент

Выбирает наибольшее значение. Мы используем его, чтобы найти атрибут с наивысшей важностью, также часто называемый «самой высокой энтропией».

Как определить важность?

Важность является мерой получения информации. Подумайте об этом так: вы хотите сделать осознанный выбор. Это означает, что в выборе должно быть очень мало двусмысленности. Итак, мы принимаем решения до тех пор, пока не получим узлы с наименьшим количеством энтропии. Спросите себя, почему мяч падает под гору?

У него заканчивается информация.

У него заканчивается энтропия. Он достигает самой низкой энергетической точки. Это ВСЕ одно и то же. Следовательно, наш корневой узел — это узел с наибольшей энтропией, наибольшей важностью. Следуя по путям дерева решений, мы достигаем узлов с все меньшим и меньшим приростом информации. Разве это не совпадает с решениями в реальной жизни? Разве мы не принимаем информированное решение за информированным решением, сводя хаос (высокоэнергетические состояния) к упорядоченным решениям (низкоэнергетические состояния)? Я верю, что да.

важность(а,примеры) = энтропия(а,примеры) — остаток(а)

Если вы хотите получить подробную информацию о математике, пожалуйста, оставьте комментарий, в противном случае, чтобы упростить задачу, просто используйте эти результаты:

Общая энтропия: 0,8112781244591328

Энтропия для ReadTextBook: 0,8112781244591322
Прирост информации для ReadTextBook: 6,661338147750939e-16

Энтропия для DoHomework: 0,4999999999999995
Получение информации для DoHomework: 0,31127812445913333

Энтропия для AttendClass: 0,49999999999999995
Получение информации для AttendClass: 0,311278133em>

разделить на : DoHomework

Результаты этого разделения создадут пример подмножества. Оказывается, все примеры в подмножестве примеров будут иметь одинаковую классификацию GetA = F. После применения алгоритма мы получаем окончательное дерево, подобное этому:

Вывод

В этом уроке мы рассмотрели алгоритм обучения дерева решений. Мы увидели практический пример того, как мы можем применить алгоритм, чтобы определить, получим ли мы пятерку по курсу. Надеюсь, вам понравился этот урок!