Деревья классификации и регрессии (CART) — это древовидный алгоритм. Алгоритм CART можно использовать для задач классификации и регрессии. Цель состоит в том, чтобы преобразовать сложные структуры в наборе данных в простые структуры принятия решений.
Алгоритм CART создает древовидную структуру путем разделения набора данных. Каждый узел разделен на подмножество наборов данных, и каждое подмножество имеет более однородную структуру данных.

Функция стоимости для регрессии задач:

Наша функция стоимости для задач регрессии выглядит следующим образом. Значение Y представляет собой среднее значение значений в той же группе.

Rj = область/лист/коробка

"part point 85" имеет самый низкий SSE. Это значение будет использоваться. Операция для одного аргумента повторяется для всех аргументов. Наконец сравниваются значения SSE всех независимых переменных, и в качестве точки ветвления для этой системы выбирается наименьшее из них.

Функция стоимости для классификациипроблем

Энтропия и Джини — это элементы чистоты.

Энтропия зависит от различного распределения меток классов в наборе данных. Если в наборе данных есть только одна метка класса, то энтропия равна 0, и набор данных считается полностью однородным. Однако если метки классов в наборе данных имеют более разные распределения, значение энтропии будет выше, и набор данных будет считаться более неоднородным по структуре.

Значение примеси Джини зависит от распределения различных меток классов в наборе данных. Если в наборе данных есть только одна метка класса, то значение примеси Джини равно 0, и набор данных считается полностью однородным. Однако если метки классов в наборе данных имеют более разные распределения, значение примеси Джини будет выше, и набор данных будет считаться более неоднородным по структуре.

Пример: расчет первого индекса Джини

После ветвления вычисляются веса всех групп на одном уровне.

Будьте на связи!

Вы можете получить все коды, связанные с исследованием, по следующим адресам в социальных сетях.