Деревья классификации и регрессии (CART) — это древовидный алгоритм. Алгоритм CART можно использовать для задач классификации и регрессии. Цель состоит в том, чтобы преобразовать сложные структуры в наборе данных в простые структуры принятия решений.
Алгоритм CART создает древовидную структуру путем разделения набора данных. Каждый узел разделен на подмножество наборов данных, и каждое подмножество имеет более однородную структуру данных.
Функция стоимости для регрессии задач:
Наша функция стоимости для задач регрессии выглядит следующим образом. Значение Y представляет собой среднее значение значений в той же группе.
Rj = область/лист/коробка
"part point 85" имеет самый низкий SSE. Это значение будет использоваться. Операция для одного аргумента повторяется для всех аргументов. Наконец сравниваются значения SSE всех независимых переменных, и в качестве точки ветвления для этой системы выбирается наименьшее из них.
Функция стоимости для классификациипроблем
Энтропия и Джини — это элементы чистоты.
Энтропия зависит от различного распределения меток классов в наборе данных. Если в наборе данных есть только одна метка класса, то энтропия равна 0, и набор данных считается полностью однородным. Однако если метки классов в наборе данных имеют более разные распределения, значение энтропии будет выше, и набор данных будет считаться более неоднородным по структуре.
Значение примеси Джини зависит от распределения различных меток классов в наборе данных. Если в наборе данных есть только одна метка класса, то значение примеси Джини равно 0, и набор данных считается полностью однородным. Однако если метки классов в наборе данных имеют более разные распределения, значение примеси Джини будет выше, и набор данных будет считаться более неоднородным по структуре.
Пример: расчет первого индекса Джини
После ветвления вычисляются веса всех групп на одном уровне.
Будьте на связи!
Вы можете получить все коды, связанные с исследованием, по следующим адресам в социальных сетях.