Деревья решений за 5 минут

Деревья решений просты, но эффективны. Они предлагают расширенное машинное обучение с относительно высокой интерпретируемостью (в отличие от мощных алгоритмов черного ящика, таких как нейронные сети). Если вы когда-нибудь задавались вопросом, как компьютеры могут самостоятельно учиться решать важные вопросы, то остановитесь на нескольких.

Меня особенно интересует то, как искусственный интеллект может быть применен к здравоохранению, поэтому я буду использовать примеры, чтобы показать вам, как деревья решений работают в дикой природе.

Суть игры заключается в том, чтобы предсказать или сгруппировать пациентов с определенными характеристиками здоровья в группы с респираторными заболеваниями и без них.

Деревья решений были впервые рассмотрены в статистическом смысле британским статистиком по имени Уильям Белсон (Вы можете найти статью здесь). В последние годы их популярность возросла благодаря их реализации в мире машинного обучения и, в частности, их использованию в случайных лесах. Поэтому я сосредоточусь на их применении в этой сфере.

По сути, вы можете думать о дереве решений как о наборе различающих вопросов, разделяющих входные данные. Они функционируют для классификации категориальных или непрерывных наблюдений в значимые группы на основе их результатов. Их 4 основных компонента следующие:

  • Корневые узлы
  • Внутренние узлы
  • Листовые узлы
  • ветви

Начнем с проблемы. Респираторные заболевания поражают одну из наших основных систем органов (наши легкие) и в значительной степени способствуют ухудшению здоровья всех групп населения. Возможность предсказать, какие пациенты подвержены повышенному риску развития респираторных заболеваний, может помочь клиницистам (таким как я) и исследователям снизить бремя болезни, помимо прочего, за счет выделения ресурсов здравоохранения. Это непростая задача, и дерево решений — уникальный и новый инструмент для решения этой проблемы.

Суть игры заключается в том, чтобы предсказать или сгруппировать пациентов с определенными характеристиками здоровья в группы с респираторными заболеваниями и без них. Имея это в виду, мы можем начать строить наше дерево.

Для нашего примера мы собрали следующие данные о 50 пациентах:

  • Статус курения (бинарная переменная)
  • Пол (бинарная переменная)
  • Возраст (непрерывная переменная)
  • Респираторное заболевание (переменная бинарного результата)

Все 50 наших наблюдений (пациентов) должны переместиться в корневой узел. На этом этапе наше дерево выбирает лучшую функцию для разделения наших данных и перемещения их во внутренние узлы. Ветви начинают разделять данные, но как решить, на какую функцию должны полагаться ветки? Есть несколько установленных методов для этой задачи.

Я обращусь к наиболее часто используемому методу: примеси Джини…

Примесь Джини — это способ определения оптимального пути для наших данных. В нашем примере мы возьмем наш список функций (характеристик здоровья) и вычислим примесь Джини для каждой переменной. Уравнение приведено выше, но вам нужно только поверхностно понять, что представляет собой примесь Джини, чтобы понять силу деревьев решений. Он представляет собой степень, в которой вопрос о группе наблюдений разделяет эти наблюдения в отношении их результатов.

Возвращаясь к нашему примеру с респираторным заболеванием, мы можем рассчитать степень, в которой каждый из наших признаков классифицирует наших пациентов как страдающих респираторным заболеванием или нет. Какая бы функция ни была оптимальной для этой задачи (имеет наименьший показатель примеси Джини), она сформирует первые ветви от корневого узла к внутреннему узлу. Здравый смысл подсказывает, что это, скорее всего, статус курения. 20 из 50 наших пациентов курят. Итак, одна из наших ветвей и ее внутренний узел теперь представляют 20 курильщиков группы.

Чтобы продолжить рост нашего дерева, мы просто повторяем описанный выше процесс для каждого из новых внутренних узлов. Возьмем нашу группу курильщиков. Мы спрашиваем, какие из признаков, которые еще не были включены в наш обратный путь к корневому узлу (возраст и пол), имеют лучшую примесь Джини. Нам также необходимо сравнить самый низкий показатель Джини (предположим, что возраст имеет самый низкий показатель в этом случае) с текущим уровнем различения результатов узлов. Вы видите, как мы можем вычислить это? Примесь Джини рассчитывается для этого внутреннего узла. Теперь предположим, что возраст еще больше улучшает наш показатель Джини. Добавляем новую ветку и новый внутренний узел. И мы снова задаем тот же вопрос. Какие из оставшихся характеристик (характеристик здоровья) в наших данных лучше всего разделяют нашу группу пациентов по исходу (респираторное заболевание)?

Если вы следуете примеру (молодец), то вам может быть интересно, «как этот процесс когда-либо останавливается» или «а как насчет конечных узлов»? Если в какой-то момент мы обнаружим, что внутренний узел оптимально сгруппирован на основе его текущей архитектуры ветвей и узлов, тогда мы устанавливаем этот узел в конечный узел. Это последнее пристанище для нашего наблюдения (…пациент). Когда все неразветвленные узлы становятся листовыми узлами, мы успешно обучили нашу модель.

С этой моделью, хранящейся в памяти компьютера, у нас теперь есть мощный алгоритм прогнозирования для просмотра новых данных и определения вероятности того, что у пациента разовьется респираторное заболевание. Мы также можем просмотреть наше дерево решений и посмотреть, какие факторы наиболее важны для прогнозирования респираторных заболеваний.

Здесь — удивительный пример использования деревьев решений для прогнозирования сердечных приступов после ангиографии. Авторы добились точности прогноза, сравнимой с моделью логистической регрессии (мы обсудим это в другой раз).

Сюжет усложняется, когда мы начинаем расширять наши деревья решений. Одним из самых популярных методов для этого являются случайные леса. Они такие же жуткие, как и звучат. Моя следующая статья будет посвящена странному миру случайных лесов и, конечно же, их применению в здравоохранении!

Если вам понравилось и вы нашли это полезным, пожалуйста, хлопните в ладоши и рассмотрите возможность подписки на другие подобные материалы. Вот ссылка на мой канал Y outube, чтобы узнать больше.