Рекуррентные сверточные нейронные сети для классификации текста

Общие мысли: упущения в исследованиях и обучении затрудняют доверие к этим результатам.

Справочная информация

Развитие встраивания слов позволило нейронным сетям значительно продвинуться в решении задач, связанных с НЛП. Вложения превосходят предыдущие функции, используемые при обработке текста, такие как «Пакет слов». Рекурсивные нейронные сети собирают информацию о предложениях в деревьях, но неэффективны для построения O (n²). Рекуррентные нейронные сети собирают контекстную информацию, поддерживая состояние всех предыдущих входных данных. Проблема с RNN заключается в том, что они предвзяты и отдают предпочтение более свежим материалам.

Верно ли утверждение, что RNN склонны отдавать предпочтение более поздней информации? Теоретически кажется, что RNN должна научиться распознавать важность определенного типа предложения и «запоминать» это до конца.

CNN могут выучить важные слова или фразы путем выбора через максимальный уровень объединения. Однако обработка текста в CNN затруднена, потому что сложно определить оптимальный размер ядра.

Если это известная трудность, автор должен предоставить ссылку на статью, в которой это показано.

Конкретные вопросы

Можем ли мы построить модель, которая классифицирует документы по категориям лучше, чем существующие модели?
Можем ли мы построить модель, которая анализирует настроения документов лучше, чем существующие модели?

Методы

Ядро модели - создание словесного представления (y¹), которое состоит из левого контекста, встраивания слов и правого контекста.

Левый контекст создается из прямой RNN, а правый контекст - это структура из обратной RNN.

y² представляет собой результат представления слова, прошедшего через стандартный слой нейронной сети - умножение весовой матрицы плюс член смещения, прошедший через функцию активации tanh.

y² = tanh (W * y¹ + b)

Операция максимального объединения берет наиболее важную особенность из каждого представления слова. Последний уровень - это компьютер с W * y³ + b, который проходит через функцию активации softmax для классификации.

Цель обучения сети пытается максимизировать вероятность регистрации данного класса. Веса сети инициализируются из равномерного распределения, где максимальное значение - квадратный корень из разветвления.

Модель скип-граммы используется для предварительного вычисления вложений слов.

Почему они сами тренируют вложения слов, а не используют предварительно обученные вложения слов с открытым исходным кодом, такие как word2vec?

Полученные результаты

Модель тестировалась на нескольких хорошо известных наборах данных и сравнивалась с часто используемыми моделями, а также с современными подходами.

Оба подхода к нейронной сети явно превосходят базовые показатели. Авторы утверждают, что сверточные (CNN и RCNN) подходы лучше, чем подход RecursiveNN, потому что способность RecursiveNN предсказывать правильное настроение опирается на правильно построенное дерево для представления настроения. Поскольку построение дерева занимает O (n²), производительность является основным ограничивающим фактором. Далее авторы говорят, что время обучения составляет 3-5 часов для RecursiveNN и несколько минут для их RCNN.

Авторам действительно нужно показать здесь некоторые данные, чтобы подтвердить свое утверждение. «3–5» часов - огромное окно, поможет график, показывающий эпоху тренировки в зависимости от времени. Также неясно, что именно происходило во время тренировки. Сколько эпох они тренировались? Использовали ли они раннюю остановку? Была ли функция потерь для RecursiveNN плато (и, таким образом, дополнительное обучение, вероятно, не помогло бы), или просто тренировка занимала много времени (их утверждение)?

По всем четырем наборам данных подход RCNN превосходил подход CNN. Чтобы проверить это дальше, авторы попробовали различные размеры ядер на CNN.

Авторы говорят, что окна малых размеров проигрывают при обнаружении шаблонов на больших расстояниях, в то время как окна больших размеров страдают из-за разреженности данных. Кажется, что независимо от размера ядра подход RCNN лучше.

Именно на этом этапе статьи я начинаю не доверять экспериментам авторов. Я был рад видеть, что они используют окна нескольких размеров, но я подумал, что упущение сложения сверточных слоев было серьезным упущением. Их утверждение о том, что при малых размерах окна теряется информация об удаленных узорах, верно, однако это цель наложения нескольких сверточных слоев. Ранние слои подбирают узоры, которые близко друг к другу, а более поздние слои видят узоры, которые далеко друг от друга.

В обоих наборах данных 20New и Fudan авторы достигают высочайших результатов.

Я думал, что их тесты против CNN были незначительными, и после 5 минут исследования я смог найти статью, опубликованную за год до этой статьи, которая использует тот же набор данных (SST) и дает результаты, превосходящие их RCNN (48,0 балла) .

К этому моменту я потерял доверие авторов, мне трудно поверить их результатам. Возможно, что RCNN действительно является современным, но с учетом экспериментальных и исследовательских оплошностей, я чувствую, что необходимы дополнительные исследования в этой области, прежде чем можно будет сделать какие-либо выводы.

Вопросов

Мы сравниваем нашу RCNN с хорошо разработанными наборами функций в наборе данных ACL. Как вы сравниваете наборы функций?
Величина максимума или минимума равна квадратному корню из «фанина» (Плаут и Хинтон, 1987). Номер - это сетевой узел предыдущего слоя в нашей модели. Скорость обучения для этого уровня делится на «разветвление». ??

Жизнеспособность как проект

Учитывая стандартизованные наборы данных, это определенно можно было бы воспроизвести как проект. Я думаю, что интересной частью реализации этого проекта в качестве проекта было бы использование CNN из статьи 2014 года в качестве сравнения с предлагаемой RCNN и проверка их результатов.

Слова, которых я не знаю

Проблема разреженности данных - проблема, которая возникает в машинном обучении, когда не хватает обучающих данных для адекватного моделирования явления. Это часто происходит в НЛП, где данный набор обучающих данных, вероятно, не будет включать много слов, а включенные слова могут быть объединены способами, которые передают другое значение, чем в обучающем наборе.
Машина опорных векторов - популярная модель обучения с учителем, используемая для двоичной классификации.
Наивный байесовский алгоритм классификации, популярный для категоризации документов. Алгоритм предполагает, что все функции независимы друг от друга.
Логистическая регрессия - классификация, используемая для двоичных категорий, где набор функций соответствует одной из двух взаимоисключающих категорий. Используя полиномиальную регрессию, можно расширить ее более чем на 2 категории.
tf-idf —Частота термина с обратной частотой документа. Термины взвешиваются по тому, как часто они появляются в документе, но компенсируются тем, как часто они появляются во всем корпусе. Это нормализует слова, которые чаще встречаются в целом, чем редкие слова. Большинство систем текстовых рекомендаций используют tf-idf в качестве механизма взвешивания.
LDA - скрытое размещение Дирихле. Статистическая модель, которая позволяет объяснять разные наблюдения ненаблюдаемым группам в рамках наблюдения. Например, текстовые классификации могут иметь общие слова и отличаться более конкретными словами.
Ядро дерева— ??
Рекурсивная NN - нейронная сеть, созданная путем рекурсивного применения одного и того же набора весов для создания структурированного прогноза.
языки с ограниченными ресурсами - языки, по которым не так много данных. Либо из-за того, что язык является эзотерическим, либо из-за того, что данные недоступны в Интернете.
Macro-f1 - оценка точности, которая включает как точность, так и отзывчивость.
Точность / отзыв - в контексте поиска документа:

L1 Регуляризация - метод регуляризации, который добавляет сумму весов к функции потерь. Напомним, норма L2 добавляет сумму квадратов весов к функции потерь.
плотный вектор - вектор, не содержащий большого количества нулей.
журнал правдоподобия - функция, которая стремится максимизировать вероятность возникновения нескольких независимых событий.
Проклятие размерности - по мере роста размерности модели ее способность распознавать более сложные закономерности увеличивается, однако объем данных, необходимых для обучения такой модели, растет экспоненциально по отношению к размерности.
модель пропуска грамматики - модель, которая принимает слово в качестве входных данных и предсказывает контекст слова - слова, которые появляются до и после - в качестве выходных данных.