Новый метод может стать основой для новых методов тонкой настройки.

Недавно я запустил образовательный информационный бюллетень, посвященный ИИ, у которого уже более 160 000 подписчиков. TheSequence — это информационный бюллетень, ориентированный на машинное обучение, без BS (то есть без шумихи, без новостей и т. д.), чтение которого занимает 5 минут. Цель состоит в том, чтобы держать вас в курсе проектов машинного обучения, научных работ и концепций. Пожалуйста, попробуйте, подписавшись ниже:



Благодаря расширению языковых моделей машинное обучение пережило революционный всплеск, позволив выполнять сложные логические задачи посредством обучения в контексте. Тем не менее, остается нерешенная проблема: языковые модели проявляют чувствительность к быстрым изменениям, что свидетельствует об отсутствии надежного мышления. Эти модели часто требуют обширной оперативной инженерной или учебной формулировки и даже демонстрируют своеобразное поведение, такое как неизменное выполнение задачи, несмотря на использование неправильных ярлыков. «В своем последнем исследовании Google раскрывает фундаментальную характеристику человеческого интеллекта: способность изучать новые задачи посредством рассуждения. всего с несколькими примерами.

В революционной статье Google под названием Настройка символов улучшает контекстное обучение в языковых моделях представлен инновационный метод тонкой настройки, называемый настройкой символов. Этот метод акцентирует сопоставление входных данных и меток, что приводит к значительным улучшениям в контекстном обучении для моделей Flan-PaLM в различных сценариях.

Настройка символа

Google Research представляет «Настройку символов», мощную технику тонкой настройки, которая устраняет ограничения традиционных методов настройки инструкций. Хотя настройка инструкций может повысить производительность модели и понимание контекста, у нее есть недостаток: модели могут не быть вынуждены учиться на примерах, поскольку задачи избыточно определяются с помощью инструкций и меток на естественном языке. Например, в задачах анализа настроений модели могут просто полагаться на предоставленные инструкции, полностью игнорируя примеры.

Настройка символов оказывается особенно полезной для ранее неизвестных задач обучения в контексте, превосходя там, где традиционные методы дают сбои из-за недостаточно определенных подсказок, лишенных инструкций или меток на естественном языке. Кроме того, модели, настроенные с помощью символов, демонстрируют исключительное мастерство в задачах алгоритмического мышления.

Наиболее заметным результатом являются существенные улучшения в обработке перевернутых меток, представленных в контексте. Это достижение подчеркивает превосходную способность модели использовать контекстную информацию, даже превосходящую ранее существовавшие знания.

Настройка символов предлагает лекарство путем точной настройки моделей на примерах, лишенных инструкций, и замены меток естественного языка семантически не связанными метками, такими как «Foo», «Bar» и т. д. В этой настройке задача становится неоднозначной без обращения к контексту. Примеры. Рассуждение над этими примерами становится решающим для успеха. Следовательно, модели, настроенные на символы, демонстрируют улучшенную производительность в задачах, требующих тонкого рассуждения между примерами в контексте и их метками.

Чтобы оценить эффективность настройки символов, исследователи использовали 22 общедоступных набора данных обработки естественного языка (NLP) с задачами типа классификации с учетом дискретных меток. Метки были переназначены на случайный выбор из пула примерно 30 000 произвольных меток, принадлежащих к трем категориям: целые числа, комбинации символов и слова.

Эксперименты включали настройку символов на моделях Flan-PaLM, в частности Flan-PaLM-8B, Flan-PaLM-62B и Flan-PaLM-540B. Кроме того, был протестирован Flan-cont-PaLM-62B (сокращенно 62B-c), представляющий Flan-PaLM-62B в масштабе 1,3 триллиона токенов вместо обычных 780 миллиардов токенов.

Процедура настройки символов требует, чтобы модели участвовали в рассуждениях с контекстными примерами для эффективного выполнения задач, поскольку подсказки предназначены для предотвращения обучения исключительно на соответствующих ярлыках или инструкциях. Модели, настроенные на символы, превосходны в настройках, требующих сложных рассуждений между контекстными примерами и метками. Чтобы изучить эти настройки, были определены четыре сценария обучения в контексте, различающиеся уровнем рассуждений, необходимых для входных данных и меток для изучения задачи (в зависимости от наличия инструкций / соответствующих меток).

Результаты продемонстрировали повышение производительности при всех настройках для моделей 62B и выше, с небольшими улучшениями в настройках с соответствующими метками на естественном языке (в диапазоне от +0,8% до +4,2%) и существенными улучшениями в настройках без таких меток (в диапазоне от +5,5%). до +15,5%). Примечательно, что, когда соответствующие метки были недоступны, Flan-PaLM-8B с настройкой символов превзошел по производительности Flan-PaLM-62B, а Flan-PaLM-62B с настройкой на символы превзошел Flan-PaLM-540B. Это говорит о том, что настройка символов позволяет меньшим моделям соответствовать производительности более крупных моделей в этих задачах, тем самым значительно снижая требования к вычислениям для логического вывода (примерно в 10 раз экономя на вычислениях).

В целом, настройка символов показывает значительные улучшения в задачах обучения в контексте, особенно для недостаточно определенных подсказок. Этот метод также показывает более высокую производительность, чем традиционная точная настройка в задачах рассуждения, и в большей степени способен использовать информацию в содержании для переопределения предыдущих знаний. В целом, настройка символов может стать одним из самых интересных методов тонкой настройки.