0. Введение

Word2vec — это инструмент для создания распределенного представления слов, предложенный Миколовым и др. [1]. Когда инструмент присваивает каждому слову действительный вектор, чем ближе значения слов, тем большее сходство будут указывать векторы.

Распределенное представление означает назначение вектора с действительным знаком для каждого слова и представление слова вектором. При представлении слова распределенным представлением мы называем вектор встраиванием слов. В этой записной книжке мы стремимся объяснить, как получить вложения слов из набора данных Penn Tree Bank.

Давайте подумаем, что означает слово. Поскольку мы люди, то можем понять, что слова «животное» и «собака» глубоко связаны друг с другом. Но какую информацию Word2vec будет использовать для изучения векторов слов? Слова «животное» и «собака» должны иметь похожие векторы, но слова «еда» и «собака» должны быть далеки друг от друга. Как узнать особенности этих слов автоматически?

1. Основная идея

Word2vec узнает сходство значений слов из простой информации. Он изучает представление слов из предложений. Основная идея основана на предположении, что на значение слова влияют окружающие его слова. Эта идея следует гипотезе распределения[2].

Слово, на котором мы сосредоточимся, чтобы изучить его представление, называется «центральным словом», а слова вокруг него называются «контекстными словами». В зависимости от размера окна C определяет количество учитываемых контекстных слов.

Рассмотрим алгоритм на примере предложения: «Милый кот перепрыгивает через ленивую собаку».

  • На всех следующих рисунках слово «кошка» рассматривается как центральное слово.
  • По размеру окна C видно, что количество контекстных слов изменилось.

3. Приступим к практической работе!

Как показано ниже, мы объясняем реализацию с помощью Colaboratory. Мы можем сразу запустить туториал в среде GPU. Итак, пожалуйста, попробуйте!



4. Ссылка