Трансформеры: эпоха BERT

Новая эра трансферного обучения в НЛП

«Не забывай, что ты узнал из нашего прошлого, Родимус. На его уроках создается будущее ». . Оптимус Прайм

Эта история началась, когда в 2018 году Google опубликовал статью под названием BERT: предварительное обучение глубоких двунаправленных преобразователей для понимания языка, в которой был представлен новый способ решения нескольких НЛП. проблемы только с одним инструментом. BERT - это новый метод предварительного обучения языковых представлений, который можно точно настроить для изменения функциональности, внося небольшие изменения в архитектуру. Следовательно, слово трансформеры было использовано для обозначения этих типов сущностей машинного обучения.

Сначала BERT был задуман в основном для решения вопросов и ответов, но позже он был адаптирован для выполнения классификации текста, анализа тональности, распознавания сущности имени и прочего. Ключевым аспектом этого решения является использование предварительно обученных языковых представлений Embeddings в качестве отправной точки для решения других проблем. В то же время появилось несколько вариаций, таких как: ULMFit, GPT и ELMo, которые являются однонаправленными или неглубокими. двунаправленный.

Сообщество машинного обучения было очень воодушевлено последствиями этой новой техники, и у них были для этого очень веские причины. Во-первых, использование предварительно обученных моделей сокращает объем данных, необходимых для решения множества проблем. Этот аспект был отличным препятствием для создания решений НЛП с реальным удобством использования. Во-вторых, модели можно перепрофилировать с небольшими изменениями. И в-третьих, результаты, полученные с помощью этого нового подхода, были намного лучше, чем у его предшественников.

Этот метод является результатом работы исследовательской группы Google над моделями, которые обрабатывают полные предложения, в то время как его предшественники использовали только каждое отдельное слово, а также способны изучать взаимосвязь между словами внутри текста. Языковая модель BERT обучается в двух направлениях, что дает более глубокое понимание языкового контекста, чем однонаправленная модель. «Однонаправленный» означает, что каждое слово контекстуализируется только с помощью соседнего слова справа или слева. В то время как BERT преобразует каждое слово и объединяет оба направления, начиная с нижней части нейронной сети.

Google выпустил из бумаги две предварительно обученные модели: BERT-Base и BERT-Large. Различный размер означает, что вы можете выбрать более подходящий в зависимости от имеющихся у вас ресурсов. Для точной настройки этих моделей требуется графический процессор, такой как Titan X или GTX 1080.

Мы можем найти модели BERT, обученные с использованием очень специфического корпуса, такого как BioBERT (биомедицинский текст), SciBERT (научные публикации), ClinicalBERT. Модели, обученные в контексте, показали лучшую производительность в более конкретных задачах. Все эти и другие модели публично доступны на GitHub и других сайтах.

Эта история будет продолжаться…

Заключение

Я надеюсь, что это краткое введение о трансформерах вызовет у вас достаточно любопытства, чтобы углубиться и провести еще немного исследований. Спасибо за прочтение!

использованная литература

Если вам интересно узнать больше о машинном обучении, присоединяйтесь к нашему сообществу Discord:

Https://discord.com/invite/FgbXpW

Трансформеры: эпоха BERT

Новая эра трансферного обучения в НЛП

Заключение

использованная литература

Вопросы по теме