BERT для многоклассовой классификации текста

Здравствуйте, в этой истории мы увидим, как реализовать BERT в качестве текстового классификатора для данных с несколькими классами.

Давайте разберемся с BERT

BERT расшифровывается как Представления двунаправленного кодировщика от трансформаторов
Давайте разберемся с каждым из этих слов и их значением.

Двунаправленный:BERT использует двунаправленную структуру модели.

Кодер:это последовательность для моделирования структуры последовательности для этого, чтобы преобразовать последовательность в другую последовательность, которую он использует кодировщик. Обратите внимание, что это не использует декодер.

Трансформеры:здесь есть массив трансформеров, используемых для выполнения операций

Давайте посмотрим, как работает BERT

Ниже приведены шаги, выполняемые один за другим в модели BERT.

Токенизация слов:в этом предложении разбивается на токены слов
Внедрение : токены встраиваются в числа
Заполнение до определенной длины
Создать матрицу внедрения:Создается матрица внедрения
Добавление вектора положения: Вектор положения добавляется к встроенной матрице, чтобы обозначать и поддерживать положение каждого слова, таким образом создавая новую матрицу.
Кодирование этой новой матрицы : эта вновь сгенерированная матрица передается в серию кодировщиков. Кодировщик подробно описан ниже. При этом используется сеть прямой связи, что означает, что выходные данные каждого кодировщика передаются следующему кодировщику, и процесс продолжается
Генерация вывода: вывод из слоя кодировщика передается в функции Linear и Softmax для прогнозирования или классификации текста.

как тогда выглядит БЕРТ

Но мы еще не закончили, давайте рассмотрим кодирование.

Кодирование (мозг BERT)

Энкодер, как это выглядит?

Это структура кодировщика bert. Это неполная часть преобразователя, так как преобразователь содержит кодировщик и декодер, но только пользовательский кодировщик BERT.
Давайте подробно рассмотрим каждую часть кодировщика.

Multi-Head Attention: содержит n различных уровней внимания, чтобы найти слово внимания из последовательности. Все эти слои работают параллельно, чтобы привлечь внимание

Здесь мы видим, что n разных уровней внимания используются параллельно, а выходные данные объединяются и передаются на следующий этап
Чтобы глубже понять внимание, вы можете обратиться к этой статье.

Прямая связь: используется для синхронизации нескольких уровней кодирования друг с другом. выход каждого энкодера подается на следующий энкодер

Генерация выходных данных

все выходные данные N кодировщиков передаются на уровень linear и softmax для получения прогнозов или классификации.

Кодирование для многоклассовой классификации текста с использованием BERT

вы можете ссылаться на код через git link

использованная литература

https://papers.nips.cc/paper/7181-attention-is-all-you-need.pdf
https://ai.googleblog.com/2018/11/open-source- bert-state-of-art-pre.html
https://github.com/google-research/bert

Надеемся, вам понравилось руководство. Просим вас оставить отзыв.