Glove (Global Vector) – это алгоритм обучения без учителя. Это метод встраивания слов, направленный на извлечение семантических отношений между словами в их встраивания. Его изобрела группа исследователей Стэнфордского университета.

Чем Glove отличается от word2Vec?

В методе Word2Vec мы учитываем локальные свойства (использует совпадение в локальном контексте) набора данных для получения векторного представления слов, тогда как в GloVe мы рассматриваем глобальные свойства (использует весь набор данных) набора данных для получения векторного представления слов.

Word2Vec использует отрицательную выборку, преобразовывая функцию Softmax в функцию Sigmoid. Это преобразование приводит к конусообразным кластерам слов в векторном пространстве, в то время как векторы слов GloVe более дискретны в пространстве, что делает Word2Vec более быстрым в вычислениях, чем >Перчатка.

Как работает GloVe?

В этом методе выполняется матричная факторизация матрицы совпадений или матрицы количества. Матрица подсчета — это счетчик слов контекста. т. е. всякий раз, когда мы находим одно слово в контексте другого слова, мы увеличиваем счетчик для этого слова.

Рассмотрим, есть два предложения

Предложение 1: я люблю НЛП.

Предложение 2. Я люблю снимать видео.

Матрица счета — это симметричная матрица. т. е. в одном случае НЛП находится в контексте любви, но в другом случае любовь будет в контексте НЛП.

Обозначения:

где,

  • Xij = количество раз, когда j появляется в контексте i
  • P(j|i) = Вероятность появления слова j в контексте i
  • ΣXik = Сумма всех значений столбцов для определенной строки. k начинается от 0 до количества слов в словаре

Так как лед связан с твердым телом, чем с паром, мы можем видеть, что P(твердый|лед) имеет более высокую вероятность, чем P(твердый|пар).

Точно так же и лед, и пар не имеют отношения к моде. Но если мы рассмотрим отдельные значения вероятности для P(мода|лед) или P(мода|пар), это не поможет нам сделать вывод об отсутствии взаимосвязи.

Следовательно, идея GloVe состоит в том, чтобы рассматривать вероятности совпадения как «отношение» и использовать его в качестве словесного представления. Мы видим, что P(мода|лед) / P(мода|пар) почти равно 1 (0,96).

Всякий раз, когда два слова связаны друг с другом, значение вероятности будет высоким, а когда два слова не связаны друг с другом, вероятность будет низкой.

Есть подвох!!!

Что делать, если одно конкретное слово связано с обоими словами?

В этом случае у нас будет высокое значение, поэтому для нейтрализации этого эффекта возьмем отношение двух вероятностей.

В нашем примере Отношение P(k|ice) и P(k|steam) мы видим, что числитель имеет высокое значение, поэтому результат будет больше 1.

Всякий раз, когда мы вычисляем соотношение между двумя высокими значениями и двумя низкими значениями, результат будет близок к единице.

Какие проблемы с матрицей совпадений???

Одна из самых больших проблем заключается в том, что размеры матрицы совпадений могут достигать миллионов, особенно при большом корпусе.

Итак, мы будем использовать матрицу совпадений, не вычисляя ее напрямую.

Введение векторов слов с матрицей совпадения для использования глобального и локального свойства набора данных.

Как мы собираемся ввести векторы слов в эту вероятностную модель?

Вот общий способ написания этого выражения:

Wk представляет векторы контекста, а Wi, Wj представляют средние слова. Мы предсказываем значение отношения двух вероятностей. В LHS у нас есть векторы, а в RHS уравнения у нас есть скаляры. Итак, чтобы преобразовать векторы в скаляр, мы будем использовать скалярное произведение векторов.

Написать функцию стоимости с тремя переменными очень сложно, поэтому нужно уменьшить количество аргументов. Как мы будем выбирать функцию?

Здесь функция F подчиняется закону гомоморфизма.Если вы знакомы с теорией групп, вы можете наблюдать следующий пример:

Предположим, Группа G (R,+) и Группа H (R, *)

Гомоморфизм утверждает, что F(U+V) = F(U) * F(V)

F:G →H

Даже если мы добавим элементы из групп G и H, результат будет таким же. Два элемента U и V принадлежат группе G, и когда мы применяем функцию F, эти два элемента проецируются в группу H/.

К счастью, наша экспоненциальная функция, то есть F(x) = e^x, является решением для этого свойства гомоморфизма.

Таким образом, после нанесения бревна с обеих сторон,

Внося некоторую предвзятость,

Функция стоимости,

Здесь у нас осталось только две переменные, хотя изначально мы передали три переменные. Итак, откуда взялась третья переменная? Мы рассматриваем только часть числителя и исключаем часть знаменателя. Таким образом мы избавимся от третьей переменной. Мы будем обучать модель, рассматривая среднее слово и его контекст. Термин V при суммировании подразумевает длину словарного запаса. Xij — произвольная функция

Здесь вы можете заметить квадратный член в уравнении. если вы на мгновение проигнорируете этот термин, он будет выглядеть знакомым с функцией наименьших квадратов (y-ypred)²

Это выпуклая функция, которая будет лучше работать на нашей модели.

ССЫЛКИ: