Дерево линейных моделей (LMT) - одна из моих любимых моделей машинного обучения - и на то есть веские причины. Деревья линейных моделей объединяют линейные модели и деревья решений для создания гибридной модели, которая дает лучшие прогнозы и приводит к лучшему анализу, чем любая из моделей по отдельности. Дерево линейных моделей - это просто дерево решений с линейными моделями в его узлах. Это можно рассматривать как кусочно-линейную модель с узлами, изученными с помощью алгоритма дерева решений. LMT могут использоваться для задач регрессии (например, с моделями линейной регрессии вместо средних значений совокупности) или для задач классификации (например, с логистической регрессией вместо моделей популяции).

Выше представлена ​​эвристическая диаграмма моделей машинного обучения по осям точности и интерпретируемости. Правый верхний квадрант - лучший, с высокой производительностью и хорошей интерпретируемостью. Эта диаграмма показывает, что LMT легко интерпретируемы и обладают высокой производительностью.

Мои обычные торговые инструменты - это Python, scikit-learn и pandas. Однако scikit-learn не включает реализацию LMT, и мне не удалось найти версию с открытым исходным кодом, поэтому я сам реализовал ее для использования в Convoy. Ссылка на реализацию находится внизу этого поста. В оставшейся части поста мы сравним LMT с другими моделями, перечисленными выше на диаграмме структуры.

LMT по сравнению с другими

Ниже мы продемонстрируем LMT с набором данных с открытым исходным кодом auto-mpg. Набор данных auto-mpg касается расхода топлива 398 автомобилей 1970-х и начала 1980-х годов. Мы спрогнозируем расход топлива (миль на галлон) на основе веса автомобиля, года выпуска, мощности, ускорения, объема двигателя и количества цилиндров. Записная книжка jupyter, ссылка на которую находится внизу этого поста, содержит полное исследование этих данных и построения модели. Здесь будут подведены итоги.

В приведенной выше таблице показана производительность четырех различных алгоритмов при прогнозировании миль на галлон для этого набора данных. Неудивительно, что Gradient Boosting Trees (GBT) работает лучше всего, поскольку этот алгоритм часто обеспечивает наилучшую прогнозирующую способность. Однако LMT работает почти так же хорошо, и, как мы увидим ниже, у него есть и другие преимущества. Линейная регрессия и одно дерево решений плохо работают по сравнению с двумя другими моделями.

LMT против GBT

GBT отлично справился с прогнозированием производительности с помощью MSE. Следующий вопрос: от чего зависит расход топлива автомобилей? Мы углубляемся в это с переменной важностью на модели GBT и получаем следующее:

Атрибут переменной важности GBT говорит нам, что вес является наиболее важной характеристикой, за которой следуют мощность, ускорение, смещение и model_year, которые все похожи. К сожалению, GBT ничего не сообщает нам ни о численной величине или знаке их воздействия, ни о взаимосвязи этих характеристик.

LMT производит всего 2 разделения, всего 3 листовых узла. Сначала он разделяется на horsepower = 78, а на horsepower >= 78 он разделяется на horsepower = 97. Мы будем называть эти три субпопуляции малой, средней и высокой мощностью.

Изучение весов из дерева линейной модели дает нам совершенно иное понимание того, что влияет на топливную эффективность, чем мы получили из других моделей. Несмотря на то, что у разных субпопуляций, выявленных нашим LMT, есть некоторые общие черты, мы также видим некоторые существенные различия.

Важно отметить, что функции ведут себя по-разному в диапазоне и распределении между группами низкой, средней и высокой мощности. Обратитесь к рисунку ниже, а затем сравните их распределения относительно важности функций для каждой группы выше. Ось X для каждого столбца фиксирована, чтобы упростить сравнение различных распределений.

Для всех транспортных средств вес имеет большое негативное влияние, что имеет смысл, потому что экономия топлива должна ухудшаться с увеличением массы транспортного средства. Модельный год имеет большое положительное влияние на все автомобили; предположительно за этот период технология двигателей значительно улучшилась. Это похоже на то, что мы видим в единственной линейной модели. Однако величина этих воздействий меняется в зависимости от подгрупп населения, идентифицированных нашим LMT, а размер и мощность двигателя имеют разную величину воздействия в разных подгруппах населения.

Для маломощных транспортных средств модельный год имеет огромное положительное влияние, и мы видим, что в этом населении экономия топлива очень чувствительна к объему двигателя.

В категории средней мощности вес снова оказывает огромное негативное влияние, но экономия топлива лишь умеренно увеличивается с модельным годом.

Для автомобилей с большой мощностью вес имеет гораздо меньшее влияние, и то же самое можно сказать и о модельном году. Объем двигателя и характеристики мощности более актуальны для этой группы по сравнению с массой и модельным годом. В этой популяции размеры двигателей гораздо более изменчивы, чем в других популяциях, поэтому размер двигателя в конечном итоге оказывает большее влияние на прогноз, чем даже то, что нам говорят коэффициенты.

Обзор преимуществ LMT

В качестве заключительного слова о деревьях линейных моделей, вот краткое изложение их преимуществ:

  • LMT хорошо интерпретируемы. Получите представление о линейных и нелинейных отношениях в ваших данных. Это может привести к другим гипотезам моделирования или идеям продукта.
  • LMT идентифицируют субпопуляции с различным поведением.
  • LMT могут легко определять и использовать линейные отношения. Модели на основе деревьев (включая случайные леса и деревья с усилением градиента) требуют больших усилий для изучения линии, потому что они соответствуют кусочно-постоянной модели, предсказывая среднее значение всех наблюдений в каждом листовом узле. Поэтому они требуют много разделений, чтобы приблизиться к линейной зависимости. Вот некоторые примеры общих линейных отношений: расходы клиентов в этом месяце, вероятно, являются функцией их расходов в прошлом месяце, продажи в этом месяце, вероятно, являются функцией продаж в прошлом месяце, стоимость зависит от размера в грузовых перевозках, $ / милю.
  • Переобучения (высокой дисперсии) можно избежать, используя перекрестную проверку для оптимизации минимального размера узла и максимальной глубины дерева.
  • LMT могут хорошо работать с небольшим объемом данных (по сравнению со многими нелинейными моделями).
  • LMT часто создают простые модели, которые легко реализовать в производственной системе, даже если эта система написана не на том же языке, который вы используете для моделирования.