Новые модели могут эффективно изучать многие языковые представления для задач понимания естественного языка.

Недавно я начал выпускать образовательный информационный бюллетень, посвященный ИИ, на который уже подписано более 80 000 человек. TheSequence - это информационный бюллетень, ориентированный на ML (то есть без рекламы, без новостей и т. Д.), На чтение которого уходит 5 минут. Наша цель - держать вас в курсе проектов, исследовательских работ и концепций машинного обучения. Пожалуйста, попробуйте, подписавшись ниже:



Понимание естественного языка (NLU) - одна из дисциплин, которая за последние несколько лет стала лидером революции в области глубокого обучения. От простых чат-ботов до цифровых помощников общего назначения, разговорные интерфейсы стали одним из наиболее распространенных проявлений искусственного интеллекта (ИИ), влияющего на нашу повседневную жизнь. Несмотря на заметный прогресс, приложения NLU, по-видимому, в основном ограничены моделями, ориентированными на конкретные задачи, в которых представление языка очень адаптировано к конкретной задаче. Два года назад исследователи из Microsoft опубликовали новую статью и реализацию новой техники, которая может изучать языковые представления в различных задачах NLU.

Специализация моделей NLU уходит корнями в то, что называется встраиванием языков. Концептуально встраивание языка - это процесс отображения символического текста на естественном языке (например, слов, фраз и предложений) на семантические векторные представления. В настоящее время большинство моделей NLU полагаются на встраивание предметно-ориентированных языков, которые не могут быть применимы к другим задачам NLU. Для создания более универсальных диалоговых приложений нам нужны модели встраивания языков, которые можно повторно использовать в различных задачах NLU.

Специализация предметной области, характерная для языковых встраиваний, прямо противоположна тому, как люди осваивают языковые концепции. Изучив конкретную концепцию, люди могут повторно использовать ее и применять к многочисленным разговорам на разные темы. Например, для ребенка, который только что научился кататься на лыжах, тривиально поговорить о катании на коньках, чем для того, кто никогда не сталкивался с этим. Если бы мы моделировали эти разговоры с использованием методов NLU, нам пришлось бы обучать разные модели в терминах языков лыжного спорта и катания на коньках, чтобы иметь эффективный диалог. Разработка моделей встраивания языков, которые можно применять к различным задачам NLU, является одной из главных задач текущего поколения методов NLU.

Основы: многозадачное обучение и предварительная подготовка к языковой модели

Учитывая ее актуальность, идея создания многоразовых языковых встраиваний была активной областью исследований в пространстве NLU в течение последнего десятилетия. Эти усилия позволили создать два основных метода, которые составляют основу новой модели изучения языка Microsoft: многозадачное обучение и предварительное обучение языковой модели.

Как ясно видно из названия, многозадачное обучение (MTL) основано на учебной деятельности человека, когда люди часто применяют знания, полученные из предыдущих задач, чтобы помочь освоить новую задачу. В контексте изучения языка модели MTL создают вложения, которые можно повторно использовать в различных действиях NLU. Проблема с традиционными моделями MTL заключается в том, что они полагаются на методы контролируемого обучения, которые требуют больших объемов помеченных данных для конкретных задач, которые редко доступны и трудно масштабируются.

Чтобы смягчить некоторые из проблем MTL, исследователи изучили развивающуюся область полууправляемого обучения. Предварительное обучение языковой модели (LMPT) - это новый метод, позволяющий изучать универсальные языковые представления, используя большие объемы немаркированных данных. Модели LMPT сначала обучаются неконтролируемым целям, а затем настраиваются для конкретных задач NLU.

Вместе MTL и LMPT составляют основу новой модели встраивания языков. В некоторой степени Microsoft подошла к задаче создания многоразовых языковых встраиваний не путем изобретения совершенно нового метода, а путем умного сочетания MTL и LMPT в новой архитектуре нейронной сети, которая может изучать текстовые представления, которые могут применяться к различным задачам NLU.

МТ-ДНН

Multi-Task Deep Learning Network (MT-DNN) - это новая многозадачная сетевая модель для изучения универсальных языковых встраиваний. MT-DNN сочетает в себе стратегии многозадачного обучения и предварительного обучения языковой модели для достижения возможности повторного использования встраивания для различных задач NLU, сохраняя при этом высокую производительность. В частности, вложения, изученные MT-DNN, ориентированы на четыре типа языковых задач:

· Классификация с одним предложением. Модель помечает предложение, используя одну из предопределенных меток класса.

· Сходство текста: для пары предложений модель предсказывает реальную оценку, указывающую на семантическое сходство двух предложений.

· Парная классификация текста: модель определяет отношения между двумя предложениями на основе набора заранее определенных меток.

· Ранжирование по релевантности: учитывая запрос и список ответов кандидатов, модель ранжирует всех кандидатов в порядке релевантности запросу.

MT-DNN основан на интригующей архитектуре нейронной сети, которая сочетает в себе уровни общего назначения и конкретные задачи. Нижние уровни являются общими для всех задач, а верхние уровни предназначены для конкретных задач. Вход X, либо предложение, либо пара предложений, сначала представляется как последовательность векторов вложения, по одному для каждого слова, в l1. Затем кодер на основе преобразователя захватывает контекстную информацию для каждого слова и генерирует общие векторы контекстного встраивания в l2. Наконец, для каждой задачи дополнительные уровни, специфичные для задачи, генерируют специфические для задачи представления, за которыми следуют операции, необходимые для классификации, оценки сходства или ранжирования по релевантности. MT-DNN инициализирует свои общие слои с помощью предварительного обучения языковой модели, а затем уточняет их с помощью многозадачного обучения.

Для обучения модели MT-DNN Microsoft использовала двухэтапный процесс. Первый этап основан на модели предварительного обучения языка, в которой параметры кодировщика лексикона и кодировщика Transformer изучаются с использованием двух задач неконтролируемого прогнозирования: моделирование языка с маской и прогнозирование следующего предложения. За этим этапом следует этап многозадачной тонкой настройки, на котором используется стохастический градиентный спуск на основе минипакетов для изучения всех параметров модели и оптимизации для конкретных задач.

MT-DNN в действии

Microsoft сравнила MT-DNN с различными современными многозадачными языковыми моделями, используя три популярных теста: GLUE, Stanford Natural Language Inference (SNLI) и SciTail. Среди моделей-кандидатов Microsoft включила Google’s BERT, который многими считается золотым стандартом методов предварительного обучения языкам. Во всех тестах MT-DNN стабильно превосходил альтернативные модели, демонстрируя колоссальный уровень эффективности при адаптации к новым задачам. Следующая матрица суммирует результаты теста КЛЕЙ.

Один из способов оценить, насколько универсальны языковые вложения, - это измерить, насколько быстро вложения могут быть адаптированы к новой задаче или сколько ярлыков для конкретных задач необходимо, чтобы получить достаточно хороший результат для новой задачи. Более универсальные вложения требуют меньшего количества ярлыков для конкретных задач. На следующей диаграмме показано, как MT-DNN создавал языковые вложения, которые были значительно более универсальными, чем те, которые были созданы BERT для той же задачи.

Вместе с исследовательской работой Microsoft открыла исходный код реализации MT-DNN на основе PyTorch. Разработчики могут протестировать эту реализацию, загрузив и запустив экземпляр Docker, инкапсулирующий модель.

Переход от встраивания конкретных задач к универсальным языковым вложениям будет одним из основных направлений в следующем поколении приложений NLU. Хотя такие методы, как MT-DNN, находятся на начальной стадии, они выдвигают на первый план некоторые ключевые идеи для создания представлений встраивания универсального языка, применимых ко многим задачам NLU.