Glove (Global Vector) – это алгоритм обучения без учителя. Это метод встраивания слов, направленный на извлечение семантических отношений между словами в их встраивания. Его изобрела группа исследователей Стэнфордского университета.
Чем Glove отличается от word2Vec?
В методе Word2Vec мы учитываем локальные свойства (использует совпадение в локальном контексте) набора данных для получения векторного представления слов, тогда как в GloVe мы рассматриваем глобальные свойства (использует весь набор данных) набора данных для получения векторного представления слов.
Word2Vec использует отрицательную выборку, преобразовывая функцию Softmax в функцию Sigmoid. Это преобразование приводит к конусообразным кластерам слов в векторном пространстве, в то время как векторы слов GloVe более дискретны в пространстве, что делает Word2Vec более быстрым в вычислениях, чем >Перчатка.
Как работает GloVe?
В этом методе выполняется матричная факторизация матрицы совпадений или матрицы количества. Матрица подсчета — это счетчик слов контекста. т. е. всякий раз, когда мы находим одно слово в контексте другого слова, мы увеличиваем счетчик для этого слова.
Рассмотрим, есть два предложения
Предложение 1: я люблю НЛП.
Предложение 2. Я люблю снимать видео.
Матрица счета — это симметричная матрица. т. е. в одном случае НЛП находится в контексте любви, но в другом случае любовь будет в контексте НЛП.
Обозначения:
где,
- Xij = количество раз, когда j появляется в контексте i
- P(j|i) = Вероятность появления слова j в контексте i
- ΣXik = Сумма всех значений столбцов для определенной строки. k начинается от 0 до количества слов в словаре
Так как лед связан с твердым телом, чем с паром, мы можем видеть, что P(твердый|лед) имеет более высокую вероятность, чем P(твердый|пар).
Точно так же и лед, и пар не имеют отношения к моде. Но если мы рассмотрим отдельные значения вероятности для P(мода|лед) или P(мода|пар), это не поможет нам сделать вывод об отсутствии взаимосвязи.
Следовательно, идея GloVe состоит в том, чтобы рассматривать вероятности совпадения как «отношение» и использовать его в качестве словесного представления. Мы видим, что P(мода|лед) / P(мода|пар) почти равно 1 (0,96).
Всякий раз, когда два слова связаны друг с другом, значение вероятности будет высоким, а когда два слова не связаны друг с другом, вероятность будет низкой.
Есть подвох!!!
Что делать, если одно конкретное слово связано с обоими словами?
В этом случае у нас будет высокое значение, поэтому для нейтрализации этого эффекта возьмем отношение двух вероятностей.
В нашем примере Отношение P(k|ice) и P(k|steam) мы видим, что числитель имеет высокое значение, поэтому результат будет больше 1.
Всякий раз, когда мы вычисляем соотношение между двумя высокими значениями и двумя низкими значениями, результат будет близок к единице.
Какие проблемы с матрицей совпадений???
Одна из самых больших проблем заключается в том, что размеры матрицы совпадений могут достигать миллионов, особенно при большом корпусе.
Итак, мы будем использовать матрицу совпадений, не вычисляя ее напрямую.
Введение векторов слов с матрицей совпадения для использования глобального и локального свойства набора данных.
Как мы собираемся ввести векторы слов в эту вероятностную модель?
Вот общий способ написания этого выражения:
Wk представляет векторы контекста, а Wi, Wj представляют средние слова. Мы предсказываем значение отношения двух вероятностей. В LHS у нас есть векторы, а в RHS уравнения у нас есть скаляры. Итак, чтобы преобразовать векторы в скаляр, мы будем использовать скалярное произведение векторов.
Написать функцию стоимости с тремя переменными очень сложно, поэтому нужно уменьшить количество аргументов. Как мы будем выбирать функцию?
Здесь функция F подчиняется закону гомоморфизма.Если вы знакомы с теорией групп, вы можете наблюдать следующий пример:
Предположим, Группа G (R,+) и Группа H (R, *)
Гомоморфизм утверждает, что F(U+V) = F(U) * F(V)
F:G →H
Даже если мы добавим элементы из групп G и H, результат будет таким же. Два элемента U и V принадлежат группе G, и когда мы применяем функцию F, эти два элемента проецируются в группу H/.
К счастью, наша экспоненциальная функция, то есть F(x) = e^x, является решением для этого свойства гомоморфизма.
Таким образом, после нанесения бревна с обеих сторон,
Внося некоторую предвзятость,
Функция стоимости,
Здесь у нас осталось только две переменные, хотя изначально мы передали три переменные. Итак, откуда взялась третья переменная? Мы рассматриваем только часть числителя и исключаем часть знаменателя. Таким образом мы избавимся от третьей переменной. Мы будем обучать модель, рассматривая среднее слово и его контекст. Термин V при суммировании подразумевает длину словарного запаса. Xij — произвольная функция
Здесь вы можете заметить квадратный член в уравнении. если вы на мгновение проигнорируете этот термин, он будет выглядеть знакомым с функцией наименьших квадратов (y-ypred)²
Это выпуклая функция, которая будет лучше работать на нашей модели.
ССЫЛКИ: