BERT (представление двунаправленного кодировщика от трансформаторов)

BIRT, или представления двунаправленного кодировщика от трансформеров, — это новый метод предварительной подготовки языковых представлений, который позволяет получить самые современные результаты в широком спектре задач обработки естественного языка (NLP). Он обучает универсальную модель «понимания языка» на большом текстовом корпусе (например, Википедии), а затем использует модель для последующих задач НЛП, которые нас интересуют (например, ответы на вопросы). BERT превосходит предыдущие методы, потому что это первая неконтролируемая глубоко двунаправленная система для предварительного обучения НЛП.

Архитектура модели

Архитектура модели BERT представляет собой многоуровневый двунаправленный преобразователь-кодер, основанный на оригинальной реализации, описанной в Vaswani et al. (2017) и выпущен в библиотеке tensor2tensor.

Использование Трансформеров стало обычным явлением, а реализация почти идентична оригиналу.

В этой работе (BERT) мы обозначаем количество слоев (т. е. блоков-трансформеров) как L, скрытый размер как H, количество размеров внутреннего внимания как H и количество головок с собственным вниманием как A. В первую очередь мы сообщаем о результатах двух размеров моделей:

· BERT-база (L=12, H=768, A=12, общие параметры = 100M)

· BERT-большой (L=24, H=1024, A=16, Total Parameters=340)

Для сравнения была выбрана база BERT, имеющая тот же размер модели, что и OpenAI GPT. Однако критически важно, что BERT Transformers использует двунаправленное самовнимание, в то время как GPT Transformer использует ограниченное самовнимание, когда каждый токен может обращать внимание только на контекст самого себя.

Две фазы:

· Предварительное обучение

· Тонкая настройка

BERT использует преимущества нескольких моделей

· Предсказать слово из заданного контекста — Word2Vec CBOW

· Двухслойная двунаправленная модель — ELMo

· Преобразователь вместо RNN — GPT (Generative Pre-Training)

БЕРТ

· BERT, естественно, является двунаправленным

· Обобщаемость: предварительно обученные модели BERT можно легко настроить для последующих задач НЛП.

· Универсальность: BERT обучался на wikipedia + bookcorps. Не требуется специальный набор данных

Точная настройка

· BERT можно недорого настроить для многих задач НЛП.

о КЛЕЙ

о ОТДЕЛЕНИЕ

Сводка

· BERT — это мощная предварительно обученная языковая модель, в которой используются двунаправленные преобразователи.

o Обучение двум новым задачам языкового моделирования

· BERT можно настроить так, чтобы он превзошел многие результаты SOTA в различных задачах НЛП.

использованная литература

https://ai.googleblog.com/2018/11/open-source-bert-state-of-art-pre.html

https://towardsdatascience.com/bert-explained-state-of-the-art-language-model-for-nlp-f8b21a9b6270

https://github.com/google-research/bert

https://arxiv.org/abs/1810.04805

https://colab.research.google.com/github/tensorflow/tpu/blob/master/tools/colab/bert_finetuning_with_cloud_tpus.ipynb

https://www.youtube.com/watch?v=BhlOGGzC0Q0&list=WL&index=60&t=93s

Внимание — это все, что вам нужно

https://arxiv.org/pdf/1706.03762.pdf

https://github.com/tensorflow/tensor2tensor

http://nlp.seas.harvard.edu/2018/04/03/attention.html