Эта статья является второй в серии из двух статей об эволюции встраивания слов, рассказанной в контексте пяти исследовательских работ. Действие происходит в середине 1990-х. Чтобы просмотреть первую статью, нажмите здесь.

Сдвиг в сторону автоматического создания признаков: скрытое распределение Дирихле

Примерно в то же время, когда на передний план вышел латентный семантический анализ, также начали развертываться искусственные нейронные сети, основанные на концептуальных представлениях. Некоторые из основных нейронных инноваций, возникших в этот период времени, как вспоминает шведская технологическая компания Gavagai, включают самоорганизующиеся карты и простые рекуррентные сети. Оба метода пригодятся для больших наборов данных, причем первый преуспевает в определении категорий, а второй — в выявлении закономерностей.

Через несколько лет дебютировало скрытое распределение Дирихле (LDA), ставшее одним из наиболее распространенных генеративных методов, лежащих в основе тематических моделей. В статье 2003 г. [3] Скрытое распределение Дирихле (Blei et al.) разбивается задача моделирования текстовых корпусов, описывая, как LDA группирует документы на основе вхождения слов. В этом случае каждый документ обычно представляется вектором фиксированной длины. Хотя LDA может применяться к другим проблемам, связанным с наборами дискретных данных, возможно, чаще всего он используется в ситуациях, когда необходимо получить темы из документов внутри корпуса. Основная идея заключается в том, что документы представляются в виде случайных смесей по скрытым темам, где каждая тема характеризуется распределением по словам (Blei et al. 2003). По сравнению с вероятностным LSA, LDA гораздо менее подвержен переоснащению при обобщении. В целом, LDA является примером еще одного важного шага вперед в вычислительном представлении слов и извлечении значения из этих представлений.

Современные модели встраивания слов

Вслед за LSA, LDA и их общей ролью в тематическом моделировании в последующие годы в 2000-х годах модели нейронного языка стали уделять больше внимания. Базовые компоненты моделей нейронного языка в основном такие же, как и у простых рекуррентных сетей. Отходя от элементов LSA и LDA, основанных на поиске информации, модели нейронного языка возвращаются к рассмотрению слов вместо документов в качестве контекстов. Согласно Гавагаи, модели на основе документов фиксируют семантическое родство (например, «лодкавода), в то время как модели на основе слов фиксируют семантическое сходство (например, лодкакорабль).

В статье 2008 г. [4] Унифицированная архитектура для обработки естественного языка подробно описывается, как исследователи Ронан Коллоберт и Джейсон Уэстон стремились создать единую систему, которая изучила бы ряд соответствующих функций для решения высокоуровневых задач. смысловые задания. Для этого они обучили глубокую нейронную сеть, состоящую из нескольких слоев. Первый слой захватывал функции на уровне слов, второй включал функции на уровне предложений, а все остальные были стандартными слоями нейронной сети. Именно внутри первого слоя слова были преобразованы в векторы, которые в конечном итоге обрабатывались последующими слоями. Поскольку выполняемые задачи — маркировка частей речи, фрагментация, распознавание именованных сущностей, маркировка семантических ролей, языковые модели и семантически связанные слова — все были связаны, только последние слои нейронной сети должны были быть специфичными для задачи. .

Захватывающим результатом унифицированной архитектуры Коллоберта и Уэстона стало достижение самой современной производительности в семантической маркировке ролей без каких-либо явных синтаксических особенностей — особенно захватывающее, потому что синтаксис часто считался решающим для этой задачи. Глядя на общую картину, это конкретное исследование показывает, как встраивание слов может повысить производительность задач с шаблонами. Это также иллюстрирует, как развитие глубокого обучения сделало нейронные языковые модели современным ландшафтом для встраивания слов.

Векторный бум

Что действительно укрепило известность встраивания слов в сообществе НЛП, так это запуск word2vec в 2013 году. Word2vec, созданный исследовательской группой под руководством Томаса Миколова из Google, представляет собой набор инструментов двухслойной нейронной сети для обучения встраиванию слов и использования предварительно обученных. word2vec опирается на две стратегии обучения: непрерывный пакет слов (CBOW) и скипграмм. Рассмотрим целевое слово — слово, которое мы пытаемся предсказать. CBOW использует nслов до и после целевого слова, чтобы сделать прогноз. Skipgram можно рассматривать как нечто обратное этому: он пытается использовать заданное слово, чтобы предсказать окружающие nслов до и после него. В основе обеих этих стратегий лежат алгоритмические усилия по поиску наилучших возможных представлений векторов слов для предсказания близлежащих слов.

В статье [5] Распределенные представления слов и фраз и их композиционность анализируется новая модель скипграмм, объясняя, как Миколов и др. удалось обучить его на несколько порядков больше данных, чем когда-либо прежде. Базовая структура прогнозирования модели скипграмм отказывается от умножения плотных матриц и вместо этого использует либо иерархический softmax, либо оценку контрастности шума — оба из них уменьшают требуемую вычислительную сложность. В результате увеличения объема данных Миколов и соавт. достигнуто значительно улучшенное качество представления слов и фраз даже для необычных сущностей.

Хотя word2vec не является примером глубокого обучения (CBOW и skipgram являются примерами мелкихнейронных сетей), встраивание слов необходимо для глубокого обучения в том виде, в каком мы его знаем, и оно будет продолжать развиваться. Deeplearning4j подчеркивает, что встраивание слов может стать основой для поиска, анализа настроений и рекомендаций в целом ряде областей, связанных с данными, таких как научные исследования, юридические открытия, электронная коммерция и управление взаимоотношениями с клиентами. Возникнув как базовая теория значения и способов его количественной оценки, встраивание слов трансформировалось по мере того, как наши вычислительные ресурсы увеличивались как в интеллектуальном плане, так и в скорости обработки. По мере того, как сообщество НЛП все глубже погружается в глубокое обучение, мы можем только ожидать, что встраивание слов найдет еще большую полезность в будущем.

Читать другие статьи на OpenDataScience.com