Новый тип слоя нейронной сети с преимуществами деревьев решений.

И нейронные сети, и деревья решений отлично справились с множеством задач машинного обучения. Что, если бы мы могли получить лучшее из обоих в одной модели? Это то, что команда Google Research пыталась найти в своей статье под названием Слой ансамбля деревьев: дифференцируемость и условные вычисления.

Деревья поддерживают условное вычисление, т.е. они могут направлять каждую выборку через небольшое количество узлов. Это может привести как к повышению производительности, так и к улучшенным статистическим свойствам, а также поможет в интерпретируемости. Но производительность дерева сильно зависит от проектирования функций, поскольку у них отсутствует механизм для изучения представлений. Именно здесь нейронные сети преуспели, особенно в задачах распознавания изображений и речи, хотя и не имели поддержки условных вычислений. В этой статье был предложен слой аддитивных дифференцируемых деревьев решений, Tree Ensemble Layer (TEL), для нейронных сетей. Этот слой может быть вставлен в любом месте нейронной сети и может быть обучен стандартными методами оптимизации на основе градиента (например, SGD).

Дифференцируемое дерево решений

В классических деревьях решений каждая выборка направляется ровно в одном направлении на каждом узле (жесткая маршрутизация), что вносит разрыв в функцию потерь. Поскольку методы непрерывной оптимизации применить нельзя, для построения дерева используется жадный подход. Мягкие деревья - это вариант деревьев решений, которые выполняют мягкую маршрутизацию, т. Е. Направляют каждую выборку влево и вправо с разными пропорциями. В этой структуре функция потерь дифференцируема, и можно использовать методы оптимизации на основе градиента.

Но как смоделировать вероятность того, что конкретная выборка, x, достигнет конечного узла, l до достичь узла l, образец x должен посетить все свои узлы-предки. И на каждом узле с определенной вероятностью он будет отправлен как в левое, так и в правое поддерево. Общая вероятность достижения узла l тогда представляет собой совокупную вероятность перехода к поддереву, содержащему l на каждом узле.

r_i, l (x) - вероятность того, что в узле i образец x с перемещением к поддереву, содержащему лист l. Логистическая функция - это популярный выбор функции активации, но она не дает в точности 0 или 1. Это означает, что необходимо вычислить все узлы, вычисление для которых увеличивается экспоненциально с увеличением глубины дерева. Чтобы обойти это, предлагается использовать следующие непрерывные и дифференцируемые функции активации:

Выбор \ gamma контролирует количество выборок, жестко маршрутизируемых на 0 или 1. Функция близко приближается к логистической функции.

Условное вычисление

Для оптимизации TEL могут использоваться методы оптимизации первого порядка, такие как варианты стохастического градиентного спуска (SGD). Вычисление градиента экспоненциально увеличивается с увеличением глубины дерева, и это было основным узким местом. Эффективное прямое и обратное распространение достигается за счет использования разреженности в функции активации, определенной выше, и ее градиента.

Условный прямой проход. Перед вычислением градиента требуется прямой проход по дереву. Здесь разреженность достигается за счет удаления любого поддерева и последующих вычислений, при которых функция активации жестко маршрутизируется на 0.

Условный обратный проход: обратный проход проходит по дереву для обновления каждого узла градиентом. Важно отметить, что градиент равен 0 для любого узла, значение которого жестко маршрутизируется на 0 или 1. Таким образом, количество узлов, которые должны быть посещены при обратном проходе, даже меньше, чем то, что было посещено при прямом проходе. Это достигается за счет создания дробного дерева с уменьшенным числом узлов, что приводит к более быстрым вычислениям.

Результаты экспериментов, приведенных в статье, показывают, что TEL обеспечивает конкурентоспособную производительность для уровней деревьев решений с градиентным усилением (GBDT) и плотной нейронной сети (DNN), в то же время приводя к значительно более компактным моделям. Эта статья действительно интересна, поскольку в ней используется новый подход к обеспечению интерпретируемости моделей нейронных сетей. Каждый скрытый уровень в DNN изучает представление, и перенос уровня TEL перед уровнем вывода определенно поможет понять прямую связь этого представления с выводом.

  1. Хазиме, Х., Пономарева, Н., Мол, П., Тан, З., и Мазумдер, Р. (2020, ноябрь). Слой ансамбля деревьев: дифференцируемость соответствует условным вычислениям. В Международной конференции по машинному обучению (стр. 4138–4148). PMLR.