Примечания NAACL ’19: Практические идеи для приложений обработки естественного языка

Продолжая Часть I этого сообщения в блоге, мы рассматриваем недавние достижения в некоторых важных задачах НЛП, таких как схожесть текста, классификация текста, маркировка последовательностей и генерация языка.

Сходство текста

В статье NAACL ’19 Коэффициенты корреляции и семантическое текстовое сходство [код] ставится под вопрос использование косинусного сходства в пространстве вложения слов. Основная идея состоит в том, чтобы рассматривать встраиваемое слово или предложение как образец N наблюдений некоторой скалярной случайной величины, где N - размер встраивания. Затем некоторые классические меры статистической корреляции могут быть применены к парам векторов. Как показал их эмпирический анализ, косинусное сходство эквивалентно (линейному) коэффициенту корреляции Пирсона для часто используемых встраиваний слов (GloVe, FastText, word2vec). Это происходит из-за того, что наблюдаемые на практике значения распределяются вокруг нулевого среднего. В сценарии подобия слов нарушение предположения о нормальности делает косинусное сходство особенно неприемлемым для векторов GloVe. Для FastText и word2vec результаты коэффициента Пирсона и коэффициентов ранговой корреляции (Спирмен, Кендалл) сопоставимы. Однако выбор косинусного сходства неоптимален для векторов предложений как центроидов векторов слов (широко используемая базовая линия для представления предложений) даже для FastText. Это вызвано тем, что векторы стоп-слов ведут себя как выбросы. В этом случае эмпирически предпочтительны меры ранговой корреляции.

Классификация текста

Классификация документов

Переосмысление сложных архитектур нейронных сетей для классификации документов и его последующий документ сравнивают современные (SOTA) модели классификации документов на четырех доступных наборах данных (Reuters, Arxiv APD, IMDB, Yelp). Реализации рассматриваемых моделей в PyTorch доступны в авторском фреймворке Hedwig. Хотя точно настроенный классификатор BERT показывает наилучшие результаты, как и ожидалось, другие результаты несколько удивительны. Вторая лучшая модель - это простой классификатор bi-LSTM, должным образом упорядоченный и улучшенный с помощью max-pooling для получения вектора признаков документа. Он оставляет после себя некоторые сложные иерархические архитектуры, такие как иерархические сети внимания (HAN) или XML-CNN, что ставит под сомнение необходимость такой сложности для этой задачи. Более того, в наборах данных (Reuters, Arxiv) с большим количеством классов и относительно немногочисленными примерами последние две модели проигрывают даже стандартной логистической регрессии по принципу один против остальных и SVM, обученным на векторах TF-IDF.

Снижение неопределенности в классификации документов [код] предлагает метрическое обучение для представлений функций и метод на основе исключения для измерения неопределенности модели глубокого обучения для классификации текста (с возможным применением в - случаи использования точности, например, в области медицины). Архитектура классификатора довольно стандартна: сверточная нейронная сеть (CNN) поверх обучаемых встраиваний слов (инициализированных векторами GloVe), за которыми следует выпадение, полностью связанный слой и слой softmax. Метрическое обучение используется для обучения встраиванию слов таким образом, чтобы минимизировать внутриклассовое евклидово расстояние и максимизировать межклассовое евклидово расстояние. Дано Sₖ - это набор экземпляров k -го класса, r ᵢ, r ⱼ - пространственные представления экземпляров i и j, D - евклидово расстояние:

Включение метрического обучения может уменьшить дисперсию прогнозов и повысить уверенность в точных прогнозах.

Метод на основе выпадения измеряет неопределенность модели с точки зрения информационной энтропии множественных оценок выпадения в сочетании с операциями шумоподавляющей маски. Выходной вектор предсказанных классов y * = (y * ₁,…, y * ₖ) получается путем применения исключения после того, как CNN k раз (k = 100 в экспериментах). Энтропия этого распределения классов (после маскировки 1/3 наиболее недопредставленных классов для уменьшения шума) рассчитывается как оценка неопределенности. Отметим, что вариационный метод отсева до сих пор вызывает бурные теоретические дискуссии (например, см. Эту ветку на Reddit; спасибо Григорию Сапунову за указание на это). Тем не менее, авторы статьи показали, что этот подход повысил оценку макро-F1 с 78% до 92%, назначив 25% работы по маркировке экспертам-людям в задаче классификации текста из 20 классов.

Классификация с несколькими этикетками

Автоэнкодер на основе ранжирования для экстремальной многокомпонентной классификации предлагает новый принципиальный подход к экстремальной многокомпонентной классификации текста, то есть к классификации текста на основе нескольких ярлыков с огромным количеством ярлыков. Эта задача имеет множество реальных приложений. Например, мы в Orb Intelligence проводим отраслевую классификацию NAICS (более 2200 иерархических классов) текстовых описаний компаний. Эта задача также характеризуется семантическими отношениями между метками (классы не являются исключительными), несбалансированностью классов и неполнотой меток.

Авторы разработали новый метод глубокого обучения Rank-AE, который включает (рисунок 1):

механизм самовнимания, позволяющий изучать богатые представления входных текстов;
автокодировщик для проецирования объектов и меток на общее скрытое пространство, в котором используются корреляции между элементами и метками. Затем автокодировщик воспроизводит метки путем декодирования;
потеря ранжирования на основе маржи, которая более эффективна для экстремальных настроек классификации и более надежна, чем шумная маркировка.

ℒ ₕ (xₕ, yₕ) выбрано как среднеквадратичный проигрыш. Архитектура способна улавливать взаимозависимости между метками во время обучения. Во время вывода кодировщик меток ℇ игнорируется. Потеря реконструкции ℒₐₑ (y, y ’) представляет собой комбинацию двух потерь ранжирования маржи для положительных и отрицательных меток:

Механизм эксплуатируемого внимания двойственен (рис. 2).

Во-первых, он взвешивает вложения слов в текст с помощью TF-IDF. Во-вторых, внимание канала предназначено для взвешивания различных битов во встраивании слов (при условии, что некоторые из них подчеркивают, скажем, коммерческий смысл термина яблоко, а другие - сельскохозяйственный). Канальное внимание реализовано в виде сети возбуждения (два полносвязных слоя с нелинейными активациями). Подобные сети раньше использовались только для изображений. После применения этих двух механизмов внимания к матрице внедрения, средний пул используется для получения функции, встраиваемой x ’. Проведенное исследование абляции показывает, что Rank-AE выигрывает от потери маржинального ранжирования зашумленных наборов данных и внимания к сложным многоаспектным текстам. Пост-анализ весов внимания, представленный в статье, поучителен для объяснения того, какие объемы текста способствовали предсказанной метке.

Классификация нулевого выстрела

« Интеграция семантических знаний для решения проблемы классификации текста с нулевым выстрелом » [код] предлагает принципиальный подход к классификации текста с нулевым выстрелом, то есть к предсказанию классов, не представленных в обучающих данных. Для этого сценария, хотя мы предполагаем, что у нас есть хотя бы их имена и, предположительно, краткие описания, таксономические или даже семантические отношения между классами. Подход состоит из двух этапов (рисунок 3).

Первая фаза, грубая классификация, предсказывает, происходит ли входной документ из видимых или невидимых классов. Мультиклассовая классификация разбита на несколько задач классификации по принципу «один против остальных». Авторы применяют метод увеличения данных, чтобы помочь классификаторам знать о существовании невидимых классов, не обращаясь к их помеченным данным. Затем на втором этапе, детальной классификации, наконец, определяется класс входящего документа. Он использует либо а) традиционный мультиклассификатор, обученный только на примерах видимых классов, либо б) двоичный классификатор с нулевым выстрелом, в зависимости от грубого прогноза, данного на первом этапе. Учитывая вектор признаков xᵢ и вектор имени класса c, нулевой классификатор принимает пары (xᵢ, c) в качестве входных данных и учится прогнозировать достоверность p (ŷᵢ = c | xᵢ). Расширение функций, основанное на семантических знаниях, используется для предоставления дополнительной информации, которая связывает документ и невидимые классы, чтобы обобщить рассуждения о нулевом выстреле. Более подробная информация об увеличении данных и используемых функций:

перевод темы: пословный перевод документа из его первого обнаруженного класса (представленного как вектор слов имени класса c) в новый невидимый класс c ', используя аналогию со словом (методом 3COSMUL):

и сохранение роли части речи переведенного слова w (существительные ⇒ существительные, глаголы ⇒ глаголы и т. д.). Переведенные документы используются для обучения классификатора нулевого выстрела для данного невидимого класса. Эти документы также используются в качестве отрицательных примеров для изучения бинарных классификаторов увиденных классов.

2. расширение функции: встраивание каждого слова wⱼ улучшено двумя векторами:

(a) ũ (wⱼ, c) - вектор отношений, показывающий, как слово wⱼ и класс c связаны с учетом отношений в общем графе знаний, таком как ConceptNet.

(b) ṽ (c) - это слово, встраиваемое в имя класса c.

Эксперименты с набором данных онтологии DBpedia и набором данных 20 групп новостей показали, что увеличение данных с помощью перевода темы повысило точность обнаружения экземпляров из невидимых классов. Более того, расширение функций позволяет передавать знания от видимых к невидимым классам для беспроблемного обучения. Метод достиг наивысшей общей точности на каждом этапе и в целом по сравнению с конкурентными базовыми показателями.

Маркировка последовательности

Объединенные контекстуальные вложения для распознавания именованных сущностей от Zalando Research используют преимущества контекстных встраиваний на основе LSTM на уровне символов, объединенных (с минимальным / максимальным / средним) во всех контекстах предложения в большом корпусе (рисунок 4).

Такое глобальное представление имеет два очаровательных свойства:

• предварительное обучение: улучшенное представление редких слов в недостаточно определенных контекстах - оно выигрывает от «запоминания» представления слов (или сущностей) в других, предположительно более богатых контекстах;

• обучение последующим задачам: эволюция представлений слов по мере того, как большее количество экземпляров одного и того же слова наблюдается в данных последующих задач.

Окончательные вложения строк формируются путем конкатенации исходного контекстного встраивания и объединенного представления, а также улучшаются стандартными встраиваемыми словами GloVe или FastText. Эксперименты показали, что объединенные контекстуализированные вложения повышают производительность теггера BiLSTM-CRF для распознавания многоязычных именованных сущностей (NER) по сравнению с новым SOTA (превосходя даже BERT-NER!). Реализация модели доступна в Фреймворке Flair.

Генерация языков

Предварительно обученные представления языковых моделей для генерации языка [code] от Facebook AI Research исследуют различные стратегии включения предварительно обученных векторов в архитектуру seq2seq (кодировщик-декодер) с приложениями в машинный перевод и абстрактное реферирование. И кодер, и декодер реализованы как преобразователи в Fairseq framework. Рассматриваемые стратегии включают:

• добавление контекстных вложений слов (ELMo) в качестве входных данных для кодировщика или декодера;

• точная настройка: замена внедренных слов в кодировщике (или отдельно в декодере) на LM-представление уровня до softmax.

Эксперименты показывают, что добавление предварительно обученных представлений очень эффективно для сети кодировщика (за счет 5-кратного замедления обучения и только 12–14% замедления вывода) в обеих конфигурациях. Интересно, что улучшения качества уменьшаются, когда становится доступным больше размеченных данных, что соответствует эффективности выборки предварительного обучения, обсуждаемой в Части I.

На этом часть II завершается. В заключительной части III мы дадим обзор фреймворков и различных эффективных методов (внимание и самовнимание, визуализация и интерпретация моделей, состязательное обучение, извлечение знаний, мультимодальное обучение).

Следуйте за нами на Medium, чтобы оставаться на связи. Не стесняйтесь делиться своим опытом или задавать вопросы в разделе комментариев.

Примечания NAACL ’19: Практические идеи для приложений обработки естественного языка - Часть II