Введение в БЕРТ

BERT (представление двунаправленного кодировщика от трансформаторов)

BIRT, или представления двунаправленного кодировщика от трансформеров, — это новый метод предварительной подготовки языковых представлений, который позволяет получить самые современные результаты в широком спектре задач обработки естественного языка (NLP). Он обучает универсальную модель «понимания языка» на большом текстовом корпусе (например, Википедии), а затем использует модель для последующих задач НЛП, которые нас интересуют (например, ответы на вопросы). BERT превосходит предыдущие методы, потому что это первая неконтролируемая глубоко двунаправленная система для предварительного обучения НЛП.

Архитектура модели

Архитектура модели BERT представляет собой многоуровневый двунаправленный преобразователь-кодер, основанный на оригинальной реализации, описанной в Vaswani et al. (2017) и выпущен в библиотеке tensor2tensor.

Использование Трансформеров стало обычным явлением, а реализация почти идентична оригиналу.

В этой работе (BERT) мы обозначаем количество слоев (т. е. блоков-трансформеров) как L, скрытый размер как H, количество размеров внутреннего внимания как H и количество головок с собственным вниманием как A. В первую очередь мы сообщаем о результатах двух размеров моделей:

· BERT-база (L=12, H=768, A=12, общие параметры = 100M)

· BERT-большой (L=24, H=1024, A=16, Total Parameters=340)

Для сравнения была выбрана база BERT, имеющая тот же размер модели, что и OpenAI GPT. Однако критически важно, что BERT Transformers использует двунаправленное самовнимание, в то время как GPT Transformer использует ограниченное самовнимание, когда каждый токен может обращать внимание только на контекст самого себя.

Две фазы:

· Предварительное обучение

· Тонкая настройка

BERT использует преимущества нескольких моделей

· Предсказать слово из заданного контекста — Word2Vec CBOW

· Двухслойная двунаправленная модель — ELMo

· Преобразователь вместо RNN — GPT (Generative Pre-Training)

БЕРТ

· BERT, естественно, является двунаправленным

· Обобщаемость: предварительно обученные модели BERT можно легко настроить для последующих задач НЛП.

· Универсальность: BERT обучался на wikipedia + bookcorps. Не требуется специальный набор данных

Точная настройка