3 парадигмы для решения одной из самых важных проблем в машинном обучении

«Святой Грааль» машинного обучения — это способность создавать системы, которые могут как запоминать известные закономерности в обучающих данных, так и обобщать неизвестные закономерности в дикой природе.

Это святой Грааль, потому что мы, люди, тоже учимся. Вы можете узнать свою бабушку на старой фотографии, но вы также можете узнать ксолоитцкуинтли как собаку, даже если никогда раньше ее не видели. Без запоминания нам пришлось бы постоянно переучиваться всему с нуля, а без обобщения мы не смогли бы приспособиться к постоянно меняющемуся миру. Чтобы выжить, нам нужны оба.

Традиционная статистическая теория обучения говорит нам, что это невозможно: модели могут либо хорошо обобщать, либо хорошо запоминать, но не то и другое одновременно. Это хорошо известный компромисс между предвзятостью и дисперсией, одна из первых вещей, которую мы изучаем в стандартных учебных программах по машинному обучению.

Как же тогда мы можем построить такие универсальные обучающие системы? Святой Грааль в пределах досягаемости?

В этом посте давайте погрузимся в 3 парадигмы из литературы,

  1. Сначала обобщай, потом запоминай
  2. Обобщайте и запоминайте одновременно
  3. Обобщайте с машинами, запоминайте с людьми

Давайте начнем.

1. Сначала обобщите, потом запомните

BERT произвел революцию в машинном обучении, представив парадигму предварительного обучения/точной настройки: после предварительного обучения без присмотра большого количества текстовых данных модель может быть быстро настроена для конкретной последующей задачи с помощью относительно меньше этикеток.

Удивительно, но этот подход к предварительной подготовке/тонкой настройке решает проблему обобщения/запоминания. BERT может обобщать, а также запоминать.

В частности, авторы показывают, что во время тонкой настройки BERT обучается в 3 различных этапа:

  1. Подгонка (эпоха 1): модель изучает простые общие шаблоны, которые объясняют как можно больше обучающих данных. На этом этапе повышается эффективность как обучения, так и проверки.
  2. Сеттинг (эпохи 2–5): больше не осталось простых паттернов для изучения. Показатели как обучения, так и проверки достигают насыщения, образуя плато на кривой обучения.
  3. Запоминание (эпохи 6+): модель начинает запоминать конкретные примеры в обучающем наборе, включая шум, что повышает эффективность обучения, но ухудшает эффективность проверки.

Как они это поняли? Начав с обучающего набора без шума (CoNLL03, эталонный набор данных для распознавания именованных объектов), а затем постепенно вводя все больше и больше искусственного шума меток. Сравнение кривых обучения с разным количеством шума ясно показывает 3 отдельные фазы: больше шума приводит к более крутому падению во время фазы 3.

Танцер и др. также показывают, что запоминание в BERT требует повторения: BERT запоминает конкретный обучающий пример только после того, как он увидит этот пример определенное количество раз. Это можно вывести из кривой обучения для искусственно введенного шума: это ступенчатая функция, которая улучшается с каждой эпохой. Другими словами, во время фазы 3 BERT может в конечном итоге запомнить весь обучающий набор, если мы просто позволим ему обучаться в течение достаточного количества эпох.

BERT, в заключение, сначала обобщает, а затем запоминает, о чем свидетельствует наблюдение за его 3 отдельными фазами обучения во время тонкой настройки. На самом деле, также можно показать, что такое поведение является прямым следствием предварительного обучения: Танцер и др. показывают, что случайно инициализированная модель BERT не использует одни и те же 3 этапа обучения. Это приводит к выводу, что парадигма предварительного обучения/точной настройки может быть возможным решением дилеммы обобщения/запоминания.

2 — Обобщайте и запоминайте одновременно

Давайте покинем мир обработки естественного языка и войдем в мир рекомендательных систем.

В современных рекомендательных системах способность запоминать и обобщать одновременно имеет решающее значение. YouTube, например, хочет показывать вам видео, похожие на те, которые вы смотрели в прошлом (запоминание), а также новые, которые немного отличаются от тех, о которых вы даже не подозревали, что захотите (обобщение). . Без запоминания вы разочаруетесь, а без обобщения вам станет скучно.

Лучшие рекомендательные системы сегодня должны делать и то, и другое. Но как?

В бумаге 2016 года Хенг-Це Ченг и сотрудники Google предлагают то, что они называют широким и глубоким обучением, для решения этой проблемы. Ключевая идея состоит в том, чтобы построить единую нейронную сеть, которая имеет как глубокий компонент (глубокая нейронная сеть с вложенными входными данными) для обобщения, так и широкий компонент (линейная модель с большим количеством разреженных входных данных) для запоминания. Авторы демонстрируют эффективность такого подхода на рекомендациях в магазине Google Play, который рекомендует приложения пользователям.

Входными данными для глубокого компонента являются плотные функции, а также встраивание категориальных функций, таких как язык пользователя, пол пользователя, впечатляющее приложение, установленные приложения и т. д. Эти вложения инициализируются случайным образом, а затем настраиваются во время обучения модели вместе с другими параметрами в нейронной сети.

Входными данными для широкого компонента сети являются детализированные кросс-функции, такие как

AND(user_installed_app=netflix, impression_app=hulu”),

значение которого равно 1, если у пользователя установлен Netflix, а впечатленное приложение — Hulu.

Легко понять, почему широкий компонент позволяет запоминать информацию: если 99% пользователей, установивших Netflix, также в конечном итоге установят Hulu, широкий компонент сможет запомнить эту часть информации, в то время как в глубоком компоненте она может потеряться. . Наличие как широких, так и глубоких компонентов действительно является ключом к максимальной производительности, утверждают Cheng et al.

И действительно, экспериментальные результаты подтверждают гипотезу авторов. Широкая и глубокая модель превзошла как широкую модель (на 2,9%), так и только глубокую модель (на 1%) с точки зрения прироста онлайн-приобретения в магазине Google Play. Эти экспериментальные результаты показывают, что «широкое и глубокое» является еще одной многообещающей парадигмой для решения дилеммы обобщения/запоминания.

3 — Обобщайте с машинами, запоминайте с людьми

И Танцер, и Ченг предложили подходы к решению дилеммы обобщения/запоминания только с помощью машин. Однако машины с трудом запоминают отдельные примеры: Танцер и др. обнаружили, что BERT требует как минимум 25 экземпляров класса, чтобы вообще научиться предсказывать его, и 100 примеров, чтобы предсказывать его «с некоторой точностью».

Сделав шаг назад, мы не должны позволять машинам выполнять всю работу. Вместо того, чтобы бороться с неспособностью наших машин запоминать, почему бы не принять ее? Почему бы не создать гибридную систему, сочетающую машинное обучение с человеческим опытом?

Именно эта идея лежит в основе Chimera, производственной системы Walmart для крупномасштабной классификации предметов электронной коммерции, представленной в документе 2014 года Чонг Суном и сотрудниками из Walmart Labs. Предпосылка Chimera заключается в том, что одного машинного обучения недостаточно для обработки классификации элементов в масштабе из-за существования большого количества пограничных случаев с небольшим количеством обучающих данных.

Например, Walmart может согласиться продавать ограниченное количество новых продуктов от нового поставщика на пробной основе. Система машинного обучения может быть не в состоянии точно классифицировать эти продукты, потому что данных для обучения недостаточно. Однако аналитики-люди могут написать правила для точного охвата этих случаев. Эти основанные на правилах решения можно затем использовать при обучении модели, чтобы через некоторое время модель смогла освоить новые паттерны.

Авторы заключают;

Мы широко используем как машинное обучение, так и созданные вручную правила. Правила в нашей системе не «приятно иметь». Они абсолютно необходимы для достижения желаемой производительности и дают аналитикам предметной области быстрый и эффективный способ обеспечения обратной связи в системе. Насколько нам известно, мы первыми описали промышленную систему, в которой и [машинное] обучение, и правила сосуществуют как первоклассные граждане.

Увы, это сосуществование также может быть ключом к решению проблемы обобщения/запоминания.

Coda: системы, которые учатся, как мы

Давайте резюмируем. Построение систем, которые могут запоминать известные шаблоны и обобщать неизвестные, — это святой Грааль машинного обучения. На сегодняшний день еще никто не решил эту проблему полностью, но мы увидели несколько перспективных направлений:

  • Было показано, что BERT сначала обобщает, а затем запоминает во время тонкой настройки, что возможно благодаря предварительному обучению.
  • Широкие и глубокие нейронные сети были разработаны для одновременного обобщения (с использованием глубокого компонента) и запоминания (с использованием широкого компонента), превосходя как широкие, так и глубокие сети в рекомендациях магазина Google Play.
  • Гибридная производственная система Walmart Chimera использует экспертов-людей для написания правил для крайних случаев, которые их модели машинного обучения не могут запомнить. Добавив эти основанные на правила решения обратно в обучающие данные, со временем модели машинного обучения могут наверстать упущенное, но в конечном итоге машинное обучение и правила сосуществуют как первоклассные граждане.

И это всего лишь небольшой проблеск того, что там есть. Любая команда промышленного машинного обучения обязательно должна решить какую-то версию дилеммы запоминания/обобщения. Если вы работаете в области машинного обучения, скорее всего, вы тоже столкнетесь с этим.

В конечном счете, решение этой проблемы не только позволит нам создавать значительно более совершенные системы машинного обучения. Это позволит нам создавать системы, которые учатся больше, как мы.