Интуитивное объяснение BERT-двунаправленных трансформаторов для NLP

Интуитивно понятный подход к пониманию BERT-представлений двунаправленного кодировщика от трансформаторов, используемых для понимания языка

В этом посте мы будем использовать интуитивно понятный подход, чтобы понять прогресс в НЛП, включая BERT. Стратегии предварительного обучения, которые делают BERT таким мощным и популярным, и точную настройку BERT для большинства задач НЛП.

Развитие алгоритмов обработки естественного языка (NLP)

Подумайте, хотите ли вы выучить новый язык, скажите хинди, и вы очень хорошо знаете английский.

Прежде всего необходимо понять значение каждого слова нового языка в контексте известного языка. Вы также будете понимать синонимы и антонимы языка для лучшего словарного запаса. Это поможет вам понять семантические или связанные со смыслом отношения. Это основная концепция, используемая в Word2Vec и GloVe.

Следующим шагом будет перевод простых и коротких предложений с английского на хинди. Вы слушали каждое слово в предложении на английском языке, а затем, основываясь на обучении, переводили каждое слово за словом с английского на хинди. Это та же концепция, что используется в Кодировщик и декодер.

Теперь вы можете переводить короткие предложения, но чтобы переводить более длинные предложения, вам нужно обращать внимание на определенные слова в предложении, чтобы лучше понимать контекст. Это делается путем добавления механизма внимания к модели кодировщика-декодера. Механизм внимания позволяет вам обращать внимание на определенные входные слова в предложении, чтобы лучше переводить, но при этом читать слово за словом в предложении.

Теперь вы хорошо умеете переводить и хотите повысить скорость и точность перевода. Вам нужна какая-то параллельная обработка, а также понимание контекста, чтобы понимать долгосрочные зависимости. Трансформеры удовлетворили это требование.

Давайте посмотрим на два предложения ниже

Рекомендательное письмо было отправлено на ваш адрес

Лидерам всего мира необходимо обратиться к своим людям по COVID-19.

Одно и то же слово «адрес» имеет другое значение в другом контексте. Вам нужно взглянуть на предложение в целом, чтобы понять синтаксис и семантику. ELMo-Embedding из языковых моделей рассматривает все предложение, чтобы понять синтаксис, семантику и контекст, чтобы повысить точность задач НЛП.

Теперь вы начали изучать язык, читая много текста (Трансферное обучение). Полученные знания теперь передаются и настраиваются для применения к различным языковым задачам, таким как классификация текста, перевод текста и т. Д., Эта модель была Тонко настроена универсальная языковая модель (ULM-Fit)

Вы используете трансформаторы для скорости, точности и понимания долгосрочной зависимости, а также учитесь на обширном корпусе слов, чтобы иметь четкое понимание языка, эта модель называется Генеративные предварительно обученные трансформаторы (GPT). Он использует только декодирующую часть трансформатора. Вы также применяете полученные знания (Передача обучения) и начинаете интерпретировать слово слева направо (Однонаправленно).

По мере того, как вы изучаете различные аспекты языка, вы понимаете, что знакомство с разнообразным текстом очень полезно для применения Трансферного обучения. Вы начинаете читать книги, чтобы укрепить словарный запас и улучшить понимание языка. Если определенные слова в предложении замаскированы или скрыты, это зависит от вашего знания языка и чтения всего предложения слева направо и справа налево (Двунаправленный). Теперь вы можете с большей точностью предсказывать замаскированные слова (Моделирование замаскированного языка). Это похоже на заполнение пробелов. Вы также можете предсказать, связаны ли эти два предложения или нет (Предсказание следующего предложения). Это простая работа BERT: двунаправленные представления кодировщика от трансформаторов.

Это было интуитивное объяснение различных достижений в НЛП.

Представления двунаправленного кодера от трансформаторов: BERT

BERT предназначен для предварительного обучения глубоких двунаправленных представлений из немаркированного текста путем совместной обработки левого и правого контекста на всех уровнях.

BERT имеет глубокие двунаправленные представления, что означает, что модель изучает информацию слева направо и справа налево. Двунаправленные модели очень эффективны по сравнению либо с моделью слева направо, либо с неглубокой конкатенацией моделей слева направо и справа налево.
Фреймворк BERT состоит из двух этапов: предварительное обучение и тонкая настройка
Он предварительно обучен на основе немаркированных данных, извлеченных из BooksCorpus (800 млн слов), и английской Википедии (2500 млн слов)
Предварительно обученная модель BERT может быть настроена с помощью всего одного дополнительного выходного слоя для решения нескольких задач НЛП, таких как суммирование текста, анализ настроений, чат-боты с вопросами и ответами, машинный перевод и т. д.
Отличительной особенностью BERT является его унифицированная архитектура для различных задач. Существует минимальная разница между предварительно обученной архитектурой и архитектурой, используемой для различных последующих задач.
BERT использует маскированную языковую модель (MLM) для использования левого и правого контекста во время предварительного обучения для создания глубоких двунаправленных преобразователей.

BERT Архитектура

Архитектура BERT - это многослойный двунаправленный кодировщик Transformer. У нас есть две версии BERT: BERT base и BERT large.

База BERT включает 12 энкодеров с 12 двунаправленными головками самовосприятия и 110 миллионами параметров

BERT large имеет 24 энкодера с 24 двунаправленными головками самовнимания и 340 миллионами параметров

BERT - это двухэтапная структура: предварительное обучение и тонкая настройка.

«Последовательность» относится к последовательности входных токенов для BERT, которая может быть одним предложением или двумя предложениями, упакованными вместе

Последовательность ввода

Первым токеном каждой последовательности всегда является уникальный классификационный токен [CLS]. Пары предложений объединяются в единую последовательность и разделяются с помощью специального токена [SEP]. Для данного токена его входное представление создается путем суммирования соответствующих вложений токена, сегмента и позиции.

Выходной слой

Помимо слоев вывода, как для предварительного обучения, так и для точной настройки используются одни и те же архитектуры. Одни и те же параметры предварительно обученной модели используются для инициализации моделей для различных последующих задач.

Предварительная подготовка BERT

BERT использует две стратегии без учителя: маскированную языковую модель (MLM) и предсказание следующего предложения (NSP) как часть предварительного обучения.

Во время предварительного обучения модель BERT обучается на немаркированных данных с помощью различных задач предварительного обучения. BERT предварительно обучен на основе немаркированных данных, извлеченных из BooksCorpus (800 млн слов), и английской Википедии (2500 млн слов)

Маскированная языковая модель (MLM)

Двунаправленное согласование в BERT позволяет каждому слову косвенно «видеть себя». Чтобы обучить глубокое двунаправленное представление, мы используем MLM для случайного замаскирования 15% входных токенов, а затем предсказываем эти замаскированные токены.

MLM подобен заполнению пробелов, где мы случайным образом маскируем 15% входных токенов, чтобы предсказать исходный идентификатор словаря. В BERT мы прогнозируем замаскированные токены, а не реконструируем весь ввод. Мы используем токены [MASK] только для предварительного обучения, и они не используются для точной настройки, поскольку они создают несоответствие. Чтобы смягчить эту проблему, мы не всегда заменяем замаскированные слова фактическим токеном [MASK].

Из 15% случайно выбранных замаскированных токенов

80% случаев мы заменяем замаскированные слова токеном [MASK]
В 10% случаев заменяйте случайным токеном
Остается 10% времени без изменений.

MLM также называют задачей закрытия

Предсказание следующего предложения (NSP)

NSP используется для понимания взаимосвязи между предложениями во время предварительного обучения. Когда у нас есть два предложения A и B, в 50% случаев B является фактическим следующим предложением, следующим за A и помеченным как IsNext, а в 50% случаев, это случайное предложение из корпуса, помеченное как NotNext.

NSP полезен в задачах NLP, таких как ответы на вопросы (QA) и вывод естественного языка (NLI).

Тонкая настройка BERT

Есть две стратегии, которые мы можем применить к предварительно обученным языковым представлениям для последующих задач: на основе функций и тонкой настройки.

BERT использует подход тонкой настройки. Метод точной настройки работает лучше, поскольку он позволяет настраивать языковую модель посредством обратного распространения ошибки.

Для точной настройки модели BERT мы сначала инициализируем предварительно обученные параметры, а затем все параметры настраиваются с использованием помеченных данных из последующих задач.

У каждой последующей задачи есть отдельные точно настроенные модели, но они инициализируются одними и теми же предварительно обученными параметрами. Для каждой задачи мы просто подключаем специфичные для задачи входы и выходы в BERT и полностью настраиваем все параметры.

Тонкая настройка - это добавление слоя необученных нейронов в качестве слоя прямой связи поверх предварительно обученного BERT.

Предварительная подготовка стоит дорого и является разовой процедурой, но тонкая настройка стоит недорого.

Преимущества применения тонкой настройки

Использует трансферное обучение. Предварительно обученный BERT уже кодирует много семантической и синтаксической информации о языке. Следовательно, обучение настроенной модели занимает меньше времени.
Потребность в меньшем количестве данных: при использовании предварительно обученного BERT нам требуется минимальная тонкая настройка для конкретной задачи и, следовательно, требуется меньше данных для лучшей производительности для любой из задач НЛП.

Заключение:

BERT предназначен для предварительного обучения глубоких двунаправленных представлений с помощью Encoder от Transformers. Предварительное обучение BERT использует немаркированный текст путем совместной обработки левого и правого контекста на всех уровнях. Предварительно обученную модель BERT можно настроить с помощью дополнительного выходного уровня для создания современных моделей для широкого круга задач НЛП.