Введение NLP (обработка естественного языка) произвело революцию во всех отраслях. Итак, НЛП - это ветвь ИИ (искусственного интеллекта), которая помогает компьютеру понимать, интерпретировать и манипулировать человеческим языком. Теперь, когда нам доступно огромное количество данных (благодаря большим данным), основной проблемой, с которой столкнулись отрасли, было общение с компьютерами. Наша языковая система поразительно сложна и разнообразна. У нас есть возможность выражать себя бесконечным количеством способов, будь то устно, физически или письменно. Первым вызовом был письменный текст. У нас есть сотни языков, каждый со своим уникальным набором грамматических и синтаксических правил.

Здесь меры схожести предложений играют все более важную роль в исследованиях, связанных с текстом, и в приложениях в таких областях, как интеллектуальный анализ текста, поиск веб-страниц и диалоговые системы. Сходство предложений помогает идентифицировать повторяющиеся данные путем измерения встречаемости похожих слов в тексте. Для этого он обычно рассчитывается путем встраивания предложений, а затем определения сходства между ними. Сходство предложений также используется при классификации и резюмировании текста. Возьмем простой пример, у нас есть простые предложения: я еду в офис на машине и: я еду в офис на такси. Здесь контекст предложения тот же, то есть «Я еду в свой офис», но выбор автомобиля другой. Здесь сходство предложений должно определять, насколько «близки» два фрагмента текста как по поверхностной близости, так и по значению.

Встраивание слов, вдохновение

Встраивание слов - это метод преобразования текста и преобразования его в форму, чтобы машина могла его обработать. Это одно из самых популярных представлений о словарном запасе документов. Преобразование выполняется таким образом, чтобы на них можно было проводить анализ. Он способен улавливать контекст слова в документе, семантическое и синтаксическое сходство, связь с другими словами и т. Д.

Было множество методов, которые пытаются добиться встраивания слов в текстовые документы. Множество ученых и исследователей данных постоянно предлагали различные методологии представления и обработки текстовых документов. Два наиболее распространенных способа синтаксического таргетинга на документы представлены пакетом слов (BOW) или частотой их терминов - обратной частотой документов (TF-IDF). Однако эти функции часто не очень эффективны для нескольких вариантов использования и предлагают очень небольшую гибкость с точки зрения словаря или синонимов. Поскольку слово обработки естественного языка развивается и расширяется, эти подходы сталкиваются со значительным недостатком, поскольку они не улавливают значение отдельных слов. Возьмем, к примеру, два предложения в разных документах: Обама обращается к средствам массовой информации в Иллинойсе и: Президент приветствует прессу в Чикаго. Хотя в этих предложениях нет общих слов, они несут почти одинаковую информацию, что не может быть представлено моделью BOW. В данном случае близость пар слов: (Обама, президент); (говорит, здоровается); (СМИ, пресса); и (Иллинойс, Чикаго) не учитывается при расчете расстояния на основе BOW.

Помимо вышеуказанного синтаксического подхода, многие исследователи предложили множество методов, которые использовали семантические вхождения и статистическое восприятие для решения этой проблемы. Скрытое семантическое индексирование (LSI), скрытое распределение Дирихле (LDA) и многие другие работы по систематическому изучению различных комбинаций частотно-зависимых весов терминов, терминов нормализации и статистики на основе корпуса. Они вероятностно группируют похожие слова по темам и представляют документы как распределение по этим темам. Хотя эти подходы обеспечивают более связное представление документа, чем BOW, они часто не улучшают эмпирические характеристики BOW.

Word2Vec

Word2Vec - это метод прогнозирующего встраивания слов, который преобразует слово в вектор чисел на основе контекста целевого слова. Векторы слов генерируются с использованием окружающих слов для представления целевых слов. Он использует нейронную сеть, скрытый слой которой кодирует представление слова.

Перчатка (глобальный вектор)

Перчатка - это модель, основанная на подсчете, которая изучает векторы или слова на основе информации об их совместном появлении, то есть как часто они появляются вместе в больших текстовых корпусах. Это высокоскоростной метод встраивания слов, который обучен вероятностям совместного появления слова и слова и имеет потенциал для достижения некоторой формы значения, которое может быть закодировано как векторные разности.

Расстояние перемещения слов (WMD)

Word Mover’s Distance (WMD) основан на недавних результатах встраивания слов, которые изучают семантически значимые представления слов из локальных совпадений в предложениях.

WMD использует результаты передовых методов встраивания, таких как word2vec и Glove, которые генерируют встраивания слов беспрецедентного качества и естественным образом масштабируются до очень больших наборов данных. Эти методы внедрения демонстрируют, что семантические отношения часто сохраняются при векторных операциях над векторами слов. Например, вектор (Берлин) - вектор (Германия) + вектор (Франция) близок к вектору (Париж).

Word Mover’s Distance (WMD) предполагает, что расстояния и между векторами вложенных слов в некоторой степени семантически значимы. Он использует это свойство встраивания векторов слов и обрабатывает текстовые документы как взвешенное облако точек встроенных слов. Расстояние между двумя текстовыми документами A и B рассчитывается как минимальное совокупное расстояние, которое слова из текстового документа A должны пройти, чтобы точно соответствовать облаку точек текстового документа B. См. Изображение ниже.

В то время как предыдущие подходы работают либо с синтаксическим, либо с семантическим встраиванием слов. Word Mover’s Distance нацелен как на семантический, так и на синтаксический подход, чтобы добиться сходства между текстовыми документами. Расстояние WMD измеряет несходство между двумя текстовыми документами как минимальное расстояние, на которое встроенные слова одного документа должны пройти, чтобы достичь встроенных слов другого документа. WMD показывает, что эта метрика расстояния может быть представлена ​​как пример расстояния земного движителя (хорошо изученная транспортная задача, для которой было разработано несколько высокоэффективных решателей).

У дистанции ОМУ есть несколько интригующих свойств:

1. Он не содержит гиперпараметров и прост для понимания и использования;

2. Это легко интерпретировать, поскольку расстояние между двумя документами можно разбить и объяснить как небольшие расстояния между несколькими отдельными словами.

3. Он естественным образом включает знания, закодированные в пространстве word2vec / Glove, и обеспечивает высокую точность поиска.

Пример использования

Давайте рассмотрим пример, чтобы лучше объяснить этот подход. Чтобы использовать WMD, нам нужны вложения слов. Для этого примера мы выбрали предварительно обученное встраивание word2vec / glove: GoogleNews-vectors-negative300.bin.gz

Давайте возьмем несколько предложений, чтобы вычислить расстояние между ними.

Как видите, выбранные предложения имеют очень похожее содержание, и поэтому ОМП должно быть низким. Но прежде чем мы двинемся дальше, нам нужно удалить игнорируемые слова.

Теперь, как упоминалось ранее, мы будем использовать предварительно обученное встраивание слов. Мы загружаем их в класс модели Gensim Word2Vec.

Теперь давайте вычислим ОМП, используя метод wmdistance.

Давайте возьмем совершенно несвязанное предложение и проверим результат.

Обратите внимание, что расстояние больше, чем раньше.

Заключение

Стоит задуматься, почему метрика ОМУ приводит к такому низкому уровню ошибок по всем наборам данных. По мере того, как встраивание слов улучшается, поскольку в обучение подается все больше и больше данных. При поиске документов произошла аналогичная установка, где каждое слово связано с высокоинформативным вектором признаков. Расстояние Word Mover - это первое, что связывает между собой высококачественные вложения слов и алгоритмы поиска EMD. Он превосходит все 7 современных альтернативных расстояний до документов в 6 из 8 реальных задач классификации.

Gensim предоставляет отличную библиотеку для реализации дистанционных методов перемещения слов при встраивании слов. Я настоятельно рекомендую его использовать для задач схожести текста и реферирования текста.

Примечание. Избегайте использования расстояния перемещения слов, если порядок слов очень частый.

Мой коллега Сакшам Бхардвадж (Сакшам) и я являемся соавторами этой статьи и ежедневно работаем над обработкой текста и его анализом. Каждую неделю мы будем публиковать больше контента о науке о данных и больших данных. Так что следите за обновлениями!

Удачного обучения!