Обработка естественного языка (NLP) была ведущей областью машинного обучения, с предварительно обученными сетями, показывающими доминирующие результаты в различных задачах понимания языка. Частью этой подгруппы является недавно опубликованная статья исследователей из Baidu, которые предлагают совершенно новую архитектуру фреймворка под названием ERNIE 2.0, которая достигла высочайшего уровня производительности. В этом тексте мы дадим интуитивное понимание основных концепций ERNIE 2.0, а также прочную основу для понимания новейших разработок в области обработки естественного языка.

Дилемма

В обычных контролируемых нейронных сетях данные помечаются и используются для математической корректировки параметров нейронов для достижения максимальной производительности. Но в НЛП возникает дилемма, когда в Интернете существует почти бесконечное количество немаркированной информации в виде статей, энциклопедий, новостей, диалогов и других языковых данных, доступных, но не используемых при применении традиционных методов. Это привело к всплеску исследований, направленных на поиск новых способов извлечения как можно большего количества полезной информации из немаркированных данных, в частности, за счет использования вероятности совпадения (случайные слова появляются рядом друг с другом) в методике, называемой обучением без учителя, которое, к счастью, не требует этикеток. После этого сеанса «общего изучения языка без учителя», на котором сеть, как мы надеемся, усвоила основы языка, происходит более тщательная контролируемая фаза обучения, называемая «точной настройкой», на которой используются меньшие размеченные наборы данных для завершения обучения и специализации сеть в таких задачах, как:

  • Анализ настроений
  • Признание имени-сущности
  • Ответ на вопрос
  • Перевод

Мы даем название «предварительное обучение» предыдущему этапу обучения без учителя, и это раздел обработки естественного языка, который быстро прогрессировал и позволил сетям понимания языка работать все лучше по мере совершенствования архитектуры предварительного обучения.

Основные идеи ERNIE 2.0

Исследователи предлагают новую архитектуру предварительного обучения под названием ERNIE 2.0, которая, как они утверждают, позволяет им достичь самых современных результатов.

Идея 1

Увеличьте извлечение информации из немаркированных данных во время неконтролируемой фазы обучения

Проблема: Текущие процедуры предварительного обучения обычно сосредоточены на предварительном обучении модели с помощью нескольких простых задач для понимания совпадения слов и предложений. Однако, помимо совместного появления, существует и другая ценная информация, которую можно извлечь из данных, которые остались позади.

Решение: исследователи предлагают расширить предтренировочные задачи, включив в них не только совпадение слов и предложений, но и такие задачи, как:

  • Задача прогнозирования заглавных букв, в которой сети показывают определенные слова, такие как «париж» и «кот», и спрашивают, какое из них следует использовать с заглавной буквы, в данном случае «Париж».
  • Шаблон отношения документ-слово, в котором показано предложение вроде: «Кошки преимущественно активны ночью», и в документе спрашивается, какое слово с наибольшей вероятностью будет повторяться в других частях той же статьи, ответ на этот пример быть «кошкой».
  • Задача переупорядочения предложений, чтобы узнать отношения между предложениями. Предложения абзаца разбиваются и перемешиваются случайным образом. Затем сеть просят собрать все вместе в виде абзаца.

Идея 2

Уменьшите потерю усвоенного прогресса при смене задач.

Проблема: современные системы предварительного обучения часто забывают информацию при переходе от одной задачи к другой. Подобно тому, как корабль протекает из нескольких отверстий, сеть пойдет и настроит параметры для удовлетворения первой задачи - устранит утечку - а затем, столкнувшись со второй задачей, она изменит свои параметры, заставляя его хорошо выполнять новую задачу, но рискуя забыть информацию, полученную ранее - это как перемещение одной руки от первой утечки ко второй, в результате чего первая утечка еще раз.

Решение: исследователи предлагают использовать метод, называемый многозадачным обучением, при котором во время фазы обучения без учителя задачи вводятся постепенно, таким образом, что наказывается «отучивание» информации. В частности, сеть просят:

1- Выполните и настройте параметры, чтобы максимизировать результаты по Задаче 1.

2 - Выполните и настройте параметры, чтобы одновременно максимизировать результаты по Задаче 1 и Задаче 2.

3 - Выполните и настройте параметры, чтобы максимизировать результаты по Задаче 1, Задаче 2 и Задаче 3 одновременно.

Этот метод позволяет сети учиться на новых задачах, сохраняя при этом информацию, полученную при выполнении предыдущих задач.

Заключение

Подводя итог, можно сказать, что при обучении нейронных сетей в области обработки естественного языка используется двойной подход, чтобы в полной мере использовать как огромные объемы немаркированных данных, доступных онлайн во время неконтролируемого обучения в `` предварительном обучении '', так и преимущества использования традиционные маркированные данные для контролируемого обучения во время «точной настройки». ERNIE 2.0 - одна из многих новых архитектур, которые вводят новшества в двух основных областях увеличения извлечения информации из немаркированных данных во время неконтролируемой фазы обучения за счет расширения определения задач перед обучением и уменьшения потери усвоенного прогресса при изменении задач. с помощью многозадачности.

Если вы хотите узнать больше о мельчайших деталях архитектуры ERNIE 2.0, а также о ее результатах по сравнению с другими фреймворками предварительного обучения, не стесняйтесь читать статью здесь:

Бумага: ERNIE 2.0: система непрерывного предварительного обучения для понимания языка

Ссылка: https://arxiv.org/abs/1907.12412

Спасибо за регистрацию! Я Давиде, 19-летний самоучка, руководитель Мафии Фейнмана, изучающий, как обучение через объяснение можно использовать для изучения любой темы.

Чтобы узнать обо мне больше, зайдите на мой сайт и подпишитесь на меня на YouTube или Twitter.