Нюансы использования вложений слов: семантические и синтаксические отношения

Примечание: впереди супер короткий пост. Думаю, просто пища для размышлений? :)

Введение

В последние недели я писал о вложениях слов.

Как я создал вложения слов с нуля для разговорного языка, такого как синглиш, и как я расширил его, чтобы обрабатывать орфографические ошибки или слова вне словарного запаса с векторами перевода.

В последней статье я проверил влияние моего эксперимента на точность последующей классификации текста.

Тем не менее, благодаря большему количеству чтений и исследований я понял нюансы использования встраивания слов и то, что это на самом деле влечет за собой.

Позвольте мне уточнить.

Видите ли, использование встраивания слов для обработки естественного языка (NLP) - это одно дело, каждый может это сделать.

Но…

Понимание последствий, которые это имеет для последующих задач, - другое.

И чтобы понять значение этого, вам сначала нужно знать, какие семантические и синтаксические отношения были изучены с помощью использованных встраиваний слов.

Что такое семантические и синтаксические отношения?

Я думаю, что «что» станет ясно, когда я расскажу о «почему».

Так какое это вообще имеет значение?

Это важно, потому что это влияет на точность ваших языковых моделей в большей степени, чем вы думаете.

Возьмем, к примеру, такую ​​задачу НЛП, как анализ настроений.

Была бы ваша модель настроения лучше, если бы использованные вложения слов отражали больше семантики слов (значения слов) или синтаксических (грамматическая структура английского языка) отношений между их?

Легкодоступные вложения слов, такие как Global Vectors (GloVe) от Стэнфорда, похоже, лучше справляются с семантически задачами, как показано в их исследовательской статье.

Word2Vec от Google, с другой стороны, хотя и хуже, чем GloVe, справляется с большинством задач НЛП, но, похоже, лучше справляется с синтаксически связанными задачами самостоятельно (источник).

При этом как семантические, так и синтаксические отношения одинаково важны для хорошей производительности в языковых моделях.

Увы, в этом мире нет ничего идеального.

Нет никаких предварительно обученных встраиваний слов, которые были бы превосходны в обоих случаях. Лично я думаю, что GloVe отлично справляется с большинством задач НЛП.

Кроме того, казалось, что мир уже отошел от предварительно обученных встраиваний слов.

Модели внимания теперь стали «в».

Взгляните на эту недавнюю статью Google от 25 октября Понимание поисковых запросов лучше, чем когда-либо прежде.

Google недавно внедрил свой знаменитый алгоритм «BERT», который представляет собой модель внимания. Модели внимания в основном могут давать разные встраивания слов в одно и то же слово, используемое в разном контексте.

Например:

«Я пошел в банк, чтобы внести свою зарплату. Он был расположен на берегу реки ».

Как люди, мы знаем, что первое употребление слова «банк» относится к финансовому учреждению, а последнее слово - к реке.

В моделях внимания к слову «банк» по-разному встраиваются слова, как в слове «финансовый банк», так и в слове «банк», как в слове «берег реки».

Довольно круто, а?

Но, честно говоря, я также хотел бы отметить ERNIE от Baidu.

ЭРНИ на самом деле является последней и самой большой моделью внимания в мире НЛП. Пока что ERNIE превосходит BERT в ВСЕХ стандартных базовых задачах НЛП и даже работает на китайском языке. Не уверен, почему люди мало об этом говорят.

Извините отвлекся на разговоры о моделях внимания.

Вернемся к исходной теме!

Конечные заметки

Думаю, в этой короткой статье я хотел сказать следующее:

Для ВСЕХ ваших задач НЛП не существует волшебных предварительно обученных встраиваний слов.

Вы должны помнить о задаче НЛП, которую вы пытаетесь решить, и обучать тому типу встраивания слов, который лучше всего подходит для этого.

Возьмем, к примеру, мою Singlish article, я определенно не могу использовать для нее GloVe или Word2Vec.

Помните, что встраивание слов в конечном итоге повлияет на точность вашей последующей обработки.

Мусор внутри, мусор вывозится.

Надеюсь, эта короткая статья о нюансах, связанных с встраиванием слов, даст вам пищу для размышлений!

До следующего раза, пока!

Профиль в LinkedIn: Тимоти Тан