t-распределенное стохастическое соседнее вложение, смещение вложений

Вступление..

Встраивание слов позволило значительно улучшить многие задачи НЛП. Его понимание схем слов и способность представлять тексты разной длины в фиксированные векторы сделали его очень популярным среди многих сложных задач НЛП. Большинство алгоритмов машинного обучения можно напрямую применять к встраиванию слов для задач классификации и регрессии, поскольку длина вектора фиксирована. В этом блоге мы попытаемся взглянуть на пакеты, которые помогают нам реализовать Word2Vec с помощью двух популярных методов: CBOW и Skip-Gram. Также мы рассмотрим некоторые свойства и визуализации вложений.

Тренировка CBOW и скип-грамм ..

Мы можем просто принять приведенный выше короткий абзац как текст встраивания слова. Мы увидим, как мы можем написать код для представления слов вышеприведенного текста в плотном пространстве.

Как объяснялось в предыдущих блогах, сначала нам нужно будет выполнить токенизацию с помощью NLTK, а затем использовать Word2Vec в библиотеке gensim. Параметр «sg» определяет алгоритм обучения CBOW (0), Skip-Gram (1).
Здесь мы можем ясно видеть плотное векторное представление слова «the». Это 50-мерный вектор, который снова задается как параметр функции Word2Vec библиотеки gensim.

Визуализация..

Самый распространенный метод визуализации - спроецировать 100 измерений слова на 2 измерения.
Методы уменьшения размерности, такие как PCA и TSNE, могут применяться к плотным векторам для создания двумерных или трехмерных векторов. Давайте кратко обсудим концепцию TSNE, а также поймем, почему она популярна при визуализации встраивания слов.

TSNE (t-распределенное стохастическое соседнее вложение)

t-Распределенное стохастическое соседнее встраивание (t-SNE) в основном используется для исследования данных и визуализации многомерных данных. Это помогает нам разложить многомерные данные на двух- или трехмерные, что упрощает построение графиков и интуитивное понимание этих многомерных точек данных.

Алгоритм t-SNE вычисляет меру сходства между парами экземпляров в пространстве большой и низкой размерности. Он пытался сохранить сходство от пространства более высокого к пространству низшего измерения. Но как мы можем количественно оценить сходство в пространствах более высокой и низкоразмерной размерности, поскольку некоторая масштабно-инвариантная мера подобия поможет нам сохранить сходство в пространствах более высокой и низкой размерности.

Мера подобия в более высоких измерениях (совместная вероятность) : для каждой точки данных мы центрируем гауссово распределение по этой точке. Затем измеряем плотность всех остальных точек. Сходства в оригинале или пространстве представлены гауссовскими совместными вероятностями.

Мера подобия в более низких измерениях (совместная вероятность) : вместо использования распределения Гаусса вы используете t-распределение Стьюдента с одной степенью свободы. Таким образом, сходства во вложенном пространстве представлены совместными вероятностями t-распределений Стьюдента.

Функция стоимости: чтобы сохранить меру сходства от более высоких измерений к более низким, нам нужно будет найти функцию показателя / стоимости, которая находит расстояние между стыками вероятности.
Дивергенция Кульбака-Либлера (KL) - это наш выбор, поскольку это очень популярная метрика, которая вычисляет расстояние между двумя распределениями вероятностей. Мы можем использовать градиентный спуск, чтобы минимизировать нашу функцию стоимости KL.

TNSE - популярный метод для визуализации встраивания слов, поскольку он способен сохранять небольшие попарные расстояния или локальные сходства в отличие от других методов измерения размерности, таких как PCA, которые связаны с сохранением больших попарных расстояний для максимизации дисперсии.

Визуализация иерархической кластеризации

Другой популярный метод визуализации - использование алгоритма кластеризации, чтобы показать иерархическое представление того, какие слова похожи на другие в пространстве встраивания.
Эта иерархия кластеров представлена ​​в виде дерева (или дендрограммы). Корень дерева - это уникальный кластер, который собирает все образцы, а листья - это кластеры только с одним образцом.

Код создания графика выше:

Примечание..

Вред от размещения. Встраиваемые аналогии также демонстрируют гендерные стереотипы и другие предубеждения, которые неявно присутствуют в тексте. Например: профессия «врач» близка к «мужчине», а профессия «медсестра» - к «женщине». Инженер НЛП должен помнить об этой врожденной предвзятости встраиваний при моделировании с использованием встраиваний. Устранение смещения вложений связано с устранением смещения этих вложений.

Сочетание первого и второго порядка. Считается, что два слова имеют совпадение первого порядка, если они обычно находятся рядом друг с другом. Два слова имеют второй порядок, если у них похожие соседи.

Далее: НЛП от нуля к единице: основы рекуррентных нейронных сетей (8/30)
Предыдущая: НЛП от нуля к единице: вложения на основе подсчета, перчатка (часть 6 / 40)