Сила многократного обучения в языковых моделях

Введение

В быстром развитии обработки естественного языка (НЛП) возникла новая тенденция: не зависящие от задачи архитектуры предварительного обучения и не зависящие от задач архитектуры. Этот прогресс привел к значительному улучшению сложных задач НЛП, таких как понимание прочитанного, ответы на вопросы и понимание текста. Тем не менее, шагом для конкретной задачи остается точная настройка большого набора данных примеров для адаптации модели, не зависящей от задачи, для выполнения желаемой задачи.

Недавняя работа Тома Б. Брауна и др. под названием «Языковые модели мало кто изучает» представляет собой захватывающее развитие в этой области. Авторы предполагают, что этот последний шаг тонкой настройки может не потребоваться. Они демонстрируют, что масштабирование языковых моделей значительно улучшает производительность, не зависящую от задачи, и иногда даже становится конкурентоспособной по сравнению с предшествующими современными подходами к тонкой настройке.

GPT-3: гигантский скачок в языковом моделировании

Авторы обучили GPT-3, авторегрессионную языковую модель с колоссальными 175 миллиардами параметров, что в 10 раз больше, чем любая предыдущая неразреженная языковая модель, и проверили ее производительность в условиях нескольких попыток. В этом случае GPT-3 применяется без каких-либо обновлений градиента или тонкой настройки, а задачи и демонстрации из нескольких кадров задаются исключительно посредством текстового взаимодействия с моделью.

Результаты были впечатляющими. GPT-3 показал высокие результаты во многих наборах данных НЛП, включая перевод, ответы на вопросы и закрывающие задачи. Однако у него возникли проблемы с некоторыми наборами данных и методологические проблемы, связанные с обучением на крупных веб-корпорациях.

Обучение в несколько этапов: новая парадигма

Обучение за несколько шагов относится к идее, что модели машинного обучения могут извлечь полезную информацию из небольшого количества примеров — в случае GPT-3 на входе предоставляется несколько примеров задачи, и модель генерирует ответ. Авторы обнаружили, что производительность при одном или нескольких шагах часто была намного выше, чем истинная производительность при нулевом спуске, предполагая, что языковые модели также можно понимать как мета-обучающиеся, где медленное обучение на основе градиентного спуска во внешнем цикле сочетается с быстрым «внутренним» обучением. -контекст» обучения.

Приложения и варианты использования

Результаты, продемонстрированные GPT-3, предполагают широкий спектр приложений. Например, в условиях нулевого и однократного применения GPT-3 достиг многообещающих результатов в различных задачах НЛП. В режиме малосъёмки он иногда конкурировал с современными моделями, а иногда даже превосходил их (несмотря на то, что эти модели были точно настроены).

Например GPT-3 достиг 81,5 F1 по CoQA при настройке «нулевого выстрела», 84,0 F1 при настройке «одного выстрела» и 85,0 F1 при настройке «несколько выстрелов». . Точно так же он достиг точности 64,3% в TriviaQA при настройке с нулевым выстрелом, 68,0% при настройке с одним выстрелом и 71,2% при настройке с несколькими выстрелами.

Практическое применение и реальные примеры использования

Давайте рассмотрим некоторые дополнительные практические применения и реальные примеры использования Few-Shot Learning в таких языковых моделях, как GPT-3:

Автоматизация поддержки клиентов. В настройках поддержки клиентов GPT-3 можно использовать для автоматического ответа на запросы клиентов. В рамках нескольких снимков модель может быть снабжена несколькими примерами распространенных запросов клиентов и соответствующими ответами. Затем, когда поступает новый запрос клиента, модель может генерировать соответствующий ответ на основе примеров, на которых она была обучена.
Например, если модель был обучен с помощью подсказки «Клиент: Я не могу войти в свою учетную запись. Поддержка: Вы пробовали сбросить пароль?» и появляется новый запрос: «Клиент: У меня проблемы с доступом к моей учетной записи». Модель может сгенерировать аналогичный ответ, предлагающий клиенту попробовать сбросить пароль.
Создание и редактирование контента. GPT-3 также можно использовать для создания и редактирования контента. Например, модель из нескольких кадров можно обучить на примерах того, как превращать пункты списка в полные предложения или абзацы. Затем, учитывая новый набор пунктов списка, модель сможет генерировать хорошо структурированные предложения или абзацы.
Например, учитывая пункты списка: «Преимущества Физические упражнения — Улучшают настроение — Снижают риск хронических заболеваний — Помогают контролировать вес», модель может генерировать такой абзац: «Упражнения приносят многочисленные преимущества. Доказано, что он улучшает настроение за счет высвобождения эндорфинов, естественных средств повышения настроения организма. Кроме того, регулярная физическая активность снижает риск хронических заболеваний, таких как болезни сердца и диабет. Упражнения также играют решающую роль в контроле веса, сжигая калории и наращивая мышечную массу».
Службы перевода: GPT-3 можно использовать для создания моделей перевода. При настройке обучения в несколько этапов модель можно обучить на нескольких парах предложений на двух разных языках. Учитывая новое предложение на одном языке, модель может затем сгенерировать перевод на другой язык.
Например, при обучении на английских французских парах предложений, таких как « Привет — Бонжур», «Спасибо — Мерси» и, учитывая новое английское предложение «Здравствуйте, спасибо», модель может сгенерировать французский перевод «Бонжур, мерси».
Медицинская диагностика. В медицинской сфере GPT-3 можно использовать для прогнозирования заболеваний на основе симптомов. Его можно обучить на нескольких примерах симптомов и соответствующих им заболеваний, а затем, учитывая новый набор симптомов, он сможет предсказать возможное заболевание.
Например, если тренироваться на парах симптом-заболевание, таких как «Лихорадка, кашель, потеря обоняния — COVID-19», «Боль в груди, одышка — Сердечный приступ», с учетом нового набора симптомов, такого как «Лихорадка, кашель», Модель может предположить возможный диагноз «COVID-19».

Помните, что хотя GPT-3 и дает многообещающие результаты, он не идеален и его следует использовать ответственно, особенно в деликатных случаях, таких как медицинская диагностика, где неверные прогнозы могут иметь серьезные последствия.

Заключение

Работа Тома Б. Брауна и др. демонстрирует огромный потенциал крупномасштабных языковых моделей, особенно в контексте кратковременного обучения. Хотя еще предстоит преодолеть проблемы, результаты показывают, что очень большие языковые модели, такие как GPT-3, могут стать ключевым ингредиентом в разработке легко адаптируемых общих языковых систем. Эти достижения могут привести к значительным улучшениям в широком спектре приложений, от машинного перевода до ответов на вопросы, демонстрируя силу краткосрочного обучения в языковых моделях.