Учебник по встраиванию слов

Характеристики встраивания слов

И проблема антонимов

Эта статья является шестой в серии Учебник по встраиванию слов:
1. Что стоит за Word2vec | 2. Слова в векторы |
3. Статистическая теория обучения | 4. Классификатор Word2vec |
5. Гиперпараметры Word2vec | 6. Характеристики встроенных слов

В предыдущей статье Гиперпараметры Word2vec мы завершили изучение алгоритма Word2vec, ознакомившись с его рекомендациями по предварительной обработке текста, методами повторного взвешивания и настройками оптимизации.

В этой статье мы оценим сильные и слабые стороны типичных вложений слов, в частности из Word2vec.

Смысл слова и значение смысла слова

В книге Мэннинга и Шютце под названием Основы статистической обработки естественного языка 36-страничная глава посвящена устранению неоднозначности смысла слов (Manning and Schütze, 1999). Это связано с тем, что обработка многозначных слов, то есть слов с несколькими значениями, долгое время считалась важной проблемой в НЛП.

В 1998 году Стетина и Нагао количественно оценили масштаб проблемы, подсчитав среднее количество смыслов в слове в Стандартном корпусе современного американского английского языка Университета Брауна (Корпус Брауна) с использованием семантической маркировки через WordNet. Они обнаружили в среднем 5,8 смыслов в слове. Они также количественно определили процент слов в корпусе с несколькими смыслами следующим образом:

Хотя большинство слов в словаре однозначны, именно многозначные слова чаще всего встречаются в речи и тексте. Например, более 80% слов в WordNet являются однозначными, но почти 78% слов в тестируемом корпусе имеют более одного смысла». (Стетина и Нагао, 1998 г.)

Однако вложения слов, созданные Word2vec, хорошо работают даже с многозначными словами. Причина, как объяснили Neelakantan et al. (2014), заключается в том, что «в пространствах средней размерности вектор может быть относительно «близок» к нескольким областям одновременно». Однако в более ранних работах Райзингера и Муни в 2010 г. и Хуанга и др. в 2012 году продемонстрировал улучшение представления векторов слов, когда было разработано несколько прототипов векторов с использованием методов кластеризации для встраивания отдельных слов.

Согласно статье Ruas et al. в 2019 году, в котором представлен широкий обзор исторического развития многосмысловых вложений слов, количество статей о многопрототипных вложениях с Word2vec невелико. Фактически, отмечено только две статьи, в которых используется Skip-gram, обе из которых были опубликованы в 2014 году, первая — Tian et al. и второй Neelakantan et al. Тиан и др. (2014) разработали алгоритм максимизации ожидания с использованием Skip-gram с иерархическим softmax, а Neelakantan et al. (2014) предложили расширение Skip-gram, которое различает несколько чувств во время обучения SGNS с использованием усреднения контекстных слов. Оба подхода показали многообещающие результаты.

Руас и др. также обсудите работу других исследователей, которая включает структурированную информацию, такую ​​как части речи, из лексических баз данных, таких как WordNet, чтобы помочь смысловым представлениям каждого вектора слова. Руас и др. (2019) сопоставляют эти результаты других исследователей с их собственным методом использования лексических баз данных для создания отдельных векторов для каждого смысла слова.

В 2015 году Ли и Джурафски утверждали, что «[l] получение отдельного представления для каждого смысла неоднозначного слова может привести к более мощным и точным моделям представлений векторного пространства». Однако в своем заключении о своей собственной модели обоснования многосмысловых вложений слов они заявляют: «Наши результаты показывают, что простого увеличения размерности базовых вложений скип-грамм иногда бывает достаточно для достижения тех же результатов в производительности, что и при использовании многосмысловых вложений. (Ли и Джурафски, 2015). Тем не менее, Гладкова и Дрозд в своей статье 2016 года об оценке встраивания слов утверждали, что полисемия настолько важна, что это «слон в комнате» (Гладкова и Дрозд, 2016).

Действительно, некоторая двусмысленность в отношении необходимости встраивания нескольких прототипов возникает из-за отсутствия консенсуса в отношении того, как измерить успех. Дубосарский и др. в 2018 году выступили против векторов, специфичных для смысла, в целом, потому что их преимущества обычно измеряются с помощью задач на сходство слов, что может привести к ложноположительным выводам (Dubossarsky et al., 2018).

Структура векторов встраивания слов

Алгоритм обучения для Word2vec использует логарифмически-линейную функцию, которую мы рассмотрели в четвертой статье этой серии Классификатор Word2vec. Хотя минимум целевой функции невыпуклый, поскольку представления целевых и контекстных слов, t и c, изучаются совместно (Goldberg and Levy, 2014), линейные отношения наблюдаются во вложениях. Эти линейные отношения являются темой статьи Арора и др. 2018 года, в которой рассматривается линейная алгебраическая структура смыслов слов в вложениях слов. Арора и др. предоставляют как теорию, так и экспериментальные результаты, показывающие, что вектор для многозначного слова по существу представляет собой средневзвешенное значение векторов отдельных смыслов (Arora et al., 2018). Это открытие, вероятно, связано с векторной математикой, представленной в первой статье этой серии и проиллюстрированной на примере король – мужчина + женщина ≈ королева.

Линейные отношения вложений слов также поддерживают способность индуцировать смысл слова из вектора (Arora et al., 2018; Mu et al., 2016). Они также могут помочь в попытках найти статистический тест для определения порога, когда требуется встраивание многосмыслового слова (Oomoto et al., 2017).

Другой характеристикой многозначных векторов слов является их величина. Во второй статье этой серии, Слова в векторах, при описании того, почему Косинусное сходство предпочтительнее других мер расстояния, мы отметили, что более часто встречающиеся слова, как правило, имеют векторы с большая величина или L² нормы. Эта тенденция в целом верна для модели векторного пространства, но есть дополнительные факторы, когда применяется ограниченное контекстное окно (например, используемое Word2vec).

Шакель и Уилсон продемонстрировали в своей статье 2015 года, что для окна с фиксированным контекстом величина вектора действительно увеличивается с частотой, но имеет тенденцию к уменьшению для слов, которые появляются в нескольких контекстах, потому что полисемия растягивает значения вектора в нескольких направлениях. Основываясь на этом наблюдении, Шакель и Уилсон обсуждают «значительность» слова, которую они измеряют, используя отношение величины вектора к частоте слова по отношению к другим словам, которые появляются с той же частотой. В целом многозначные слова, как правило, имеют меньшие векторные величины, учитывая их общую частотность слов (Schakel and Wilson, 2015).

Антонимы и вложения слов

Несмотря на то, что встраивание слов достаточно хорошо справляется с задачами подобия слов и аналогиями типа король – мужчина + женщина ≈ королева, у них есть недостатки. Вложения слов обычно работают правильно для синонимов, но хуже для многозначных слов.

Более того, вложения слов не различают антонимы. Они рассматривают антонимы скорее как синонимы, потому что антонимы, как правило, появляются в тех же контекстах, что и их противоположности (Reisinger and Mooney, 2010; Turney and Pantel, 2010). Например, следующие противоположные фразы обычно очень мало отличаются по содержанию от соседнего текста:

Он подтвердил бронирование.
Он отменил бронирование.

Большинство методов различения антонимов основаны на лексических базах данных. Однако некоторые исследователи, в первую очередь Саменко и др., Нашли способы найти следы антонимической информации в самих стандартных вложениях слов.

Методы преодоления проблемы антонимов в словесных вложениях продолжают развиваться. Например, следующий рисунок, опубликованный Qalaxia в 2021 году, показывает впечатляющие результаты расширенного набора тестов антонимов Bigger Analogy Test Set (BATS):

Саменко и др. представили обзор темы антонимов (Саменко и др., 2020).

Помимо Word2vec

С 2013 года, когда был выпущен Word2vec, исследователи активно продолжали разрабатывать другие алгоритмы для улучшения встраивания слов. Два важных алгоритма, таких же «поверхностных», как Word2vec, и заслуживающих более подробного обсуждения, — это GloVe и fastText.

GloVe был создан группой исследователей из Стэнфордского университета в 2014 году. GloVe, что означает глобальные векторы, основан на глобальной статистике совпадений слов и слов с использованием метода, аналогичного методам уменьшения размерности, обсуждавшимся во втором разделе. статью из этой серии Слова в векторы, в которой данные собираются, а затем уменьшаются в размерах. Техника GloVe создает вложения слов со свойствами, аналогичными вложениям Word2vec, и при тестировании дает немного лучшие результаты, чем Word2vec (Pennington et al., 2014).

После GloVe понятие fastText было представлено в 2016 году в двух статьях, написанных в соавторстве с создателем Word2vec Миколовым и группой исследователей искусственного интеллекта Facebook (Bojanowski et al., 2016; Joulin et al., 2016). fastText распространяет обучение Word2vec не только на слова, но и на группы букв (известные как символьные n-граммы), что позволяет более точно моделировать слова, которых нет в обучающем словаре.

Word2vec, GloVe и fastText — это три основных алгоритма поверхностных нейронных сетей для создания встраивания слов.

После разработки GloVe и fastText исследования систем глубокого обучения с использованием контекстуализированных представлений слов продолжились. В настоящее время AllenNLP ELMo, OpenAI GPT и Google BERT являются тремя популярными системами глубокого обучения, которые используют контекстные встраивания (Ethayarajh, 2019; Ethayarajh, 2020). В этих системах вложения слов динамически обновляются в зависимости от контекста, такого как окружающее предложение и другие контекстуальные подсказки. Для выполнения своих задач НЛП эти три системы используют технологии глубокого обучения, такие как тип рекуррентной нейронной сети (RNN), известный как долговременная кратковременная память (LSTM) и Transformers (Ghati, 2020).

Со временем ELMo, GPT и BERT стали очень точными и привели к значительным улучшениям приложений NLP. Однако, поскольку они являются глубокими нейронными сетями, они требуют больших вычислительных ресурсов.

Краткое содержание

В этой статье мы рассмотрели некоторые характеристики встраивания слов, сгенерированные алгоритмами поверхностных нейронных сетей, такими как Word2vec, GloVe и fastText. В целом эти алгоритмы работают хорошо, но у них есть проблемы с многозначными словами и антонимами, и исследования по улучшению поверхностных нейронных сетей продолжаются. Мы также узнали о трех наиболее популярных системах глубокого обучения, использующих контекстные встраивания, их преимуществах и недостатках.

В этой серии статей Учебник по встраиванию слов мы рассмотрели, как вложения слов содержат информацию об отношениях между словами, когда они фактически используются, и как эти отношения выражаются математически. Мы пролили свет на то, как работают встраивания слов, и принесли пользу вычислительным приложениям, таким как предсказание слов в функции автозаполнения поисковых систем и приложений для обмена сообщениями.

Мы узнали, что сбор и обработка данных, связанных с созданием встраивания слов, глубоко уходят корнями в статистическую теорию. Хотя данные, используемые в НЛП, не обязательно являются случайными или параметрически распределенными, а методы повторного взвешивания и сжатия используются для преобразования данных в информацию, пригодную для использования, вероятность и статистическая теория являются неотъемлемой частью НЛП.

Мы также узнали о возможностях неглубоких нейронных сетей в создании встраивания слов. Детально изучив алгоритм обучения Word2vec, мы обнаружили, что не только новый алгоритм Word2vec привел к его выдающемуся успеху. Особый набор методов обработки данных Word2vec сыграл ключевую роль в его эффективности и широком распространении.

Наконец, мы узнали о проблемах, которые представляют собой антонимы слов и слова с несколькими значениями для НЛП, и о том, как НЛП ответило, используя технологии глубокого обучения.

Применение встраивания слов обширно: поисковые системы, анализ настроений, языковой перевод, системы рекомендаций, прогнозирование текста, чат-боты и многое другое. В связи с тем, что в Интернете происходит так много человеческого общения, часто в виде чисел или изображений, но еще чаще в виде текста и голоса, поиски улучшения и лучшего использования встраивания слов будут продолжаться. Я думаю, что мы будем впечатлены развитием событий в ближайшие несколько лет.

Информация, имеющая практическую ценность (знания), обычно передается между людьми в устной форме, и мы обычно делаем все возможное, чтобы обобщить эту информацию в письменном тексте — Towards Data Science является таким хранилищем!

Хотя на практическом уровне вложения слов являются статистически полученными значениями для представления слов в приложениях, на более глубоком уровне они используют отношения слов в языке для разъяснения смысла.

Эта статья была 6ᵗʰ в серии Учебник по встраиванию слов:
1. Что стоит за Word2vec | 2. Слова в векторы |
3. Статистическая теория обучения | 4. Классификатор Word2vec |
5. Гиперпараметры Word2vec | 6. Характеристики встраивания слов

Подробнее по этой теме: ресурсом, который я рекомендую для получения дополнительной информации о свойствах встраивания слов, является статья, которая была удостоена почетного упоминания за лучшую статью на ICML 2019: Allen, C. and Hospedales, T. (2019). Объяснение аналогий: к пониманию встраивания слов. На Международной конференции по машинному обучению. Доступен по адресу arXiv:1901.09813.

Если вы хотите узнать больше о контекстных встраиваниях, статья Гати «Сравнение между BERT, GPT-2 и ELMo» (Medium) является хорошим введением.

Если вы хотите начать работать с алгоритмом Word2vec, Руководство по внедрению Word2Vec с использованием NumPy и Google Sheets Чиа включает в себя загружаемый скрипт Python, который легко настроить и содержит диаграммы, которые помогают представить векторную и матричную математику, хотя реализация очень проста. Кроме того, PyTorch-версии Word2vec можно найти на сайте Towards Data Science, а TensorFlow содержит руководство.

Наконец, если вы хотите создать пригодные для использования вложения слов из больших корпусов или запустить приложение с предварительно обученным набором вложений, Gensim имеет полные реализации Word2vec и fastText, оптимизированные на C с интерфейсом Python. Вы также можете найти в Интернете стандартные предварительно обученные встраивания из Word2vec, fastText и GloVe.

Рекомендации

Арора С., Ли Ю., Лян Ю., Ма Т. и Ристески А. (2018). Линейная алгебраическая структура смыслов слов с приложениями к полисемии. Труды Ассоциации компьютерной лингвистики, 6:483–495. Доступен по адресу arXiv:1601.03764v6.

Бояновски П., Грейв Э., Жоулин А. и Миколов Т. (2016). Обогащение векторов слов информацией о подсловах. Доступен по адресу arXiv:1607.04606.

Чиа, Д. (2018). Руководство по внедрению Word2Vec с использованием NumPy и Google Sheets. На пути к науке о данных.

Дубосарский, Х., Гроссман, Э., и Вайншалл, Д. (2018). Приходя в себя: об элементах управления и оценочных наборах в исследованиях полисемии. Материалы конференции по эмпирическим методам обработки естественного языка, страницы 1732–1740. Ассоциация компьютерной лингвистики. Доступен в doi 10.18653/v1/D18–1200.

Этаярадж, К. (2019). Насколько контекстуальными являются контекстуализированные представления слов? Сравнение геометрии вложений BERT, ELMo и GPT-2. Материалы конференции по эмпирическим методам обработки естественного языка 2019 г. и 9-й Международной объединенной конференции по обработке естественного языка, страницы 55–65. ПДФ.

Этаярадж, К. (2020). BERT, ELMo и GPT-2: насколько контекстуальны контекстуализированные представления слов? Гитхаб.

Гати, Г. (2020). Сравнение BERT, GPT-2 и ELMo. Средний.

Гладкова А. и Дрозд А. (2016). Внутренние оценки вложений слов: что мы можем сделать лучше? Материалы 1-го семинара по оценке представлений векторного пространства для НЛП, страницы 36–42. Ассоциация компьютерной лингвистики. Доступен в doi 10.18653/v1/W16–2507.

Голдберг Ю. и Леви О. (2014). word2vec Объяснение: получение метода встраивания слов с отрицательной выборкой Миколова и др. Доступен по адресу arXiv:1402.3722v1.

Хуанг, Э., Сочер, Р., Мэннинг, К., и Нг, А. (2012). Улучшение представлений слов через глобальный контекст и несколько прототипов слов. Материалы 50-го ежегодного собрания Ассоциации компьютерной лингвистики, страницы 873–882. ПДФ.

Жоулин А., Грейв Э., Бояновский П. и Миколов Т. (2016). Набор хитростей для эффективной классификации текстов. Доступен по адресу arXiv:1607.01759.

Ли, Дж. и Джурафски, Д. (2015). Улучшают ли встраивания Multi-Sense понимание естественного языка? Материалы конференции по эмпирическим методам обработки естественного языка 2015 г., страницы 1722–1732. Доступен в doi 10.18653/v1/D15–1200.

Мэннинг, К. и Шютце, Х. (1999). Основы статистической обработки естественного языка. Кембридж, Массачусетс: MIT Press.

Му, Дж., Бхат, С., и Вишванат, П. (2016). Геометрия полисемии. Доступен по адресу arXiv:1610.07569v1.

Нилакантан, А., Шанкар, Дж., Пассос, А., и МакКаллум, А. (2014). Эффективная непараметрическая оценка нескольких вложений на слово в векторном пространстве. Материалы конференции 2014 года по эмпирическим методам обработки естественного языка, страницы 1059–1069. Ассоциация компьютерной лингвистики. Доступен в doi 10.3115/v1/D14–113.

Оомото К., Ойкава Х., Ямамото Э., Ёсида М., Окабе М. и Умемура К. (2017). Обнаружение полисемии в распределенном представлении смысла слова. Доступен по адресу arXiv:1709.08858v1.

Пеннингтон Дж., Сочер Р. и Мэннинг К. (2014). GloVe: глобальные векторы для представления слов. Материалы конференции по эмпирическим методам обработки естественного языка (EMNLP) 2014 г., страницы 1532–1543. ПДФ.

Райзингер, Дж. и Муни, Р.Дж. (2010). Мультипрототипные векторно-пространственные модели значения слов. Протоколы технологий человеческого языка: конференция Североамериканского отделения Ассоциации компьютерной лингвистики, страницы 109–117. ПДФ.

Руас, Т., Гроски, В., и Айзава, А. (2019). Многосмысловые вложения с помощью процесса устранения неоднозначности смысла слова. Экспертные системы с приложениями, 136:288–303. Доступно по doi 10.1016/j.eswa.2019.06.026.

Саменко И., Тихонов А. и Ямщиков И. (2020). Синонимы и антонимы: встроенный конфликт. Доступен на arXiv:2004.12835v1.

Шакель, А.М.Дж. и Уилсон, Б.Дж. (2015). Измерение значения слов с использованием распределенных представлений слов. Доступен по адресу arXiv:1508.02297v1.

Стетина Дж. и Нагао М. (1998). Общий метод устранения неоднозначности смысла слова, основанный на полном сентенциальном контексте. Journal of Обработка естественного языка, 5(2): 47–74.

Терни, П. Д. и Пантел, П. (2010). От частоты к смыслу: модели векторного пространства семантики. Журнал исследований искусственного интеллекта, 37:141–188. ПДФ.

*Рисунки и изображения предоставлены автором, если не указано иное.