Переставляем знакомое: проверка композиционного обобщения в рекуррентных сетях

Бренден Лейк участвует в исследовании того, как машины обрабатывают композицию.

Способность выучить язык часто считается само собой разумеющимся. От произнесения первого слова до возможных предложений в раннем детстве - язык быстро закодирует наши мысли и делает возможным наше межличностное общение. Язык настолько фундаментален, что кажется почти инстинктивным. И все же для компьютеров усвоение естественного языка невероятно сложно. Если ребенок мог легко интерпретировать значение новой фразы «бегать медленно», зная как «бегать», так и «медленно», компьютер изо всех сил пытается установить те же самые, казалось бы, интуитивные связи. Чтобы попытаться воспроизвести эти способности в машинах, важно понять, как разум обрабатывает композицию языка и мышления.

В своей недавней публикации Бренден М. Лейк, доцент кафедры психологии и науки о данных, и исследователь искусственного интеллекта Facebook, Жоао Лула из École Polytechnique и Facebook AI Research, и Марко Барони из Facebook AI Research, исследуют повторяющиеся проблемы нейронных сетей с точки зрения композиционных способностей и обобщения. Ранее Лейк и Барони подготовили еще одну исследовательскую работу, в которой также говорилось о неадекватных навыках систематической композиции нейронных сетей. Исследователи предполагают, что эта проблема коренится в необходимости больших наборов обучающих данных. Они предложили рекуррентным нейронным сетям объединить новый глагол dax с известными компонентами, такими как снова и дважды. Даже увидев такие команды, как дважды прыгнуть и прыгнуть еще раз, RNN не понимают dax дважды.

В ответ на опасения, что это просто подтвердило известные проблемы с однократным обучением (способность учиться на одном или нескольких примерах), новая публикация Лейк и др. Посвящена объединению известных слов в невидимые шаблоны. Новое исследование подтверждает первоначальные выводы о том, что RNN борются с композиционным обобщением. RNN хороши для обобщения на многих примерах знакомого паттерна, но терпят неудачу, когда обобщение требует нового применения композиционных правил. Примером этого может быть попытка понять значение слова «примерно правильно», учитывая, что значения обоих слов «примерно» и «правильно». Чтобы изучить композицию в моделях нейронных сетей seq2seq, исследователи изменили назначение набора данных SCAN, представленного в Lake & Baroni.

Прежде чем приступить к делу, краткий обзор модели нейронной сети seq2seq:

Большинство современных систем машинного перевода основаны на структуре, в которой две нейронные сети взаимодействуют друг с другом. Первая, нейронная сеть кодировщика, создает уникальный вектор контекста для данного предложения. Это достигается путем чтения слова, создания вектора, чтения следующего слова и обновления этого исходного вектора. Конечный продукт - это вектор, представляющий предложение. Вторая нейронная сеть, довольно интуитивно, называется нейронной сетью-декодером. Задача этой нейронной сети - вывести получившуюся фразу на другом языке. Для этого сеть инициализируется вектором представления контекста, разработанным в первой сети, а затем выводит слово, скажем, на немецком языке. Затем он передает это слово обратно в систему, проверяет контекст и переходит к следующему слову. Процесс продолжается до тех пор, пока не будет завершен перевод исходного предложения.

Lake et al. проверьте композицию, когда модель увидела достаточно примеров каждого слова, но не в сочетании друг с другом. В Lake et al. Модели обучают значению слова «вокруг». Ему рассказывают о значении как «правого», так и «левого», но преподают только «вокруг» в контексте левого. На вопрос модели «Можете ли вы перепрыгнуть вправо?» Она терпит неудачу. Модель знает значение слова «вокруг», увидев его во всех возможных контекстах слева. Он знает значение слова «правильно». Человек мог бы легко экстраполировать симметрию между левым и правым и использовать слово «вокруг» в новом контексте «справа». Однако новое исследование Lake et al. Доказывает, что проблема заключалась не только в введении нового глагола, такого как «dax»; есть фундаментальная ошибка в композиционном обучении. Подтверждая выводы Лэйка и Барони, исследователи обнаружили, что RNN все еще борются с систематической композиционностью в этой адаптированной задаче.

Сабрина де Сильва

Переставляем знакомое: проверка композиционного обобщения в рекуррентных сетях

Вопросы по теме