Новый тип слоя нейронной сети с преимуществами деревьев решений.
И нейронные сети, и деревья решений отлично справились с множеством задач машинного обучения. Что, если бы мы могли получить лучшее из обоих в одной модели? Это то, что команда Google Research пыталась найти в своей статье под названием Слой ансамбля деревьев: дифференцируемость и условные вычисления.
Деревья поддерживают условное вычисление, т.е. они могут направлять каждую выборку через небольшое количество узлов. Это может привести как к повышению производительности, так и к улучшенным статистическим свойствам, а также поможет в интерпретируемости. Но производительность дерева сильно зависит от проектирования функций, поскольку у них отсутствует механизм для изучения представлений. Именно здесь нейронные сети преуспели, особенно в задачах распознавания изображений и речи, хотя и не имели поддержки условных вычислений. В этой статье был предложен слой аддитивных дифференцируемых деревьев решений, Tree Ensemble Layer (TEL), для нейронных сетей. Этот слой может быть вставлен в любом месте нейронной сети и может быть обучен стандартными методами оптимизации на основе градиента (например, SGD).
Дифференцируемое дерево решений
В классических деревьях решений каждая выборка направляется ровно в одном направлении на каждом узле (жесткая маршрутизация), что вносит разрыв в функцию потерь. Поскольку методы непрерывной оптимизации применить нельзя, для построения дерева используется жадный подход. Мягкие деревья - это вариант деревьев решений, которые выполняют мягкую маршрутизацию, т. Е. Направляют каждую выборку влево и вправо с разными пропорциями. В этой структуре функция потерь дифференцируема, и можно использовать методы оптимизации на основе градиента.
Но как смоделировать вероятность того, что конкретная выборка, x, достигнет конечного узла, l до достичь узла l, образец x должен посетить все свои узлы-предки. И на каждом узле с определенной вероятностью он будет отправлен как в левое, так и в правое поддерево. Общая вероятность достижения узла l тогда представляет собой совокупную вероятность перехода к поддереву, содержащему l на каждом узле.
r_i, l (x) - вероятность того, что в узле i образец x с перемещением к поддереву, содержащему лист l. Логистическая функция - это популярный выбор функции активации, но она не дает в точности 0 или 1. Это означает, что необходимо вычислить все узлы, вычисление для которых увеличивается экспоненциально с увеличением глубины дерева. Чтобы обойти это, предлагается использовать следующие непрерывные и дифференцируемые функции активации:
Выбор \ gamma контролирует количество выборок, жестко маршрутизируемых на 0 или 1. Функция близко приближается к логистической функции.
Условное вычисление
Для оптимизации TEL могут использоваться методы оптимизации первого порядка, такие как варианты стохастического градиентного спуска (SGD). Вычисление градиента экспоненциально увеличивается с увеличением глубины дерева, и это было основным узким местом. Эффективное прямое и обратное распространение достигается за счет использования разреженности в функции активации, определенной выше, и ее градиента.
Условный прямой проход. Перед вычислением градиента требуется прямой проход по дереву. Здесь разреженность достигается за счет удаления любого поддерева и последующих вычислений, при которых функция активации жестко маршрутизируется на 0.
Условный обратный проход: обратный проход проходит по дереву для обновления каждого узла градиентом. Важно отметить, что градиент равен 0 для любого узла, значение которого жестко маршрутизируется на 0 или 1. Таким образом, количество узлов, которые должны быть посещены при обратном проходе, даже меньше, чем то, что было посещено при прямом проходе. Это достигается за счет создания дробного дерева с уменьшенным числом узлов, что приводит к более быстрым вычислениям.
Результаты экспериментов, приведенных в статье, показывают, что TEL обеспечивает конкурентоспособную производительность для уровней деревьев решений с градиентным усилением (GBDT) и плотной нейронной сети (DNN), в то же время приводя к значительно более компактным моделям. Эта статья действительно интересна, поскольку в ней используется новый подход к обеспечению интерпретируемости моделей нейронных сетей. Каждый скрытый уровень в DNN изучает представление, и перенос уровня TEL перед уровнем вывода определенно поможет понять прямую связь этого представления с выводом.
- Хазиме, Х., Пономарева, Н., Мол, П., Тан, З., и Мазумдер, Р. (2020, ноябрь). Слой ансамбля деревьев: дифференцируемость соответствует условным вычислениям. В Международной конференции по машинному обучению (стр. 4138–4148). PMLR.