Исследователи нейромеханики посетили ACL 2019, ежегодное собрание Ассоциации компьютерной лингвистики, ведущей мировой конференции в области обработки естественного языка. Во второй части нашей серии ACL in Review (см. Первую часть здесь) я продолжаю эксперимент по написанию черновиков заметок по мере продвижения разделов ACL.

На этот раз это вечернее занятие в понедельник под названием Зрение, робототехника, мультимодальные перевозки, заземление и речь; это означает, что в этом разделе мы получаем несколько красивых картинок вместе с текстом. Опять же, я предоставлю ссылки на Антологию ACL для статей, и все изображения в этом посте взяты из соответствующих статей, если не указано иное. Документ, который я хочу подробно обсудить, не был первым в своем разделе, но я все же решил сохранить порядок конференции, чтобы сделать его как можно более достоверным.

К бумагам!

Визуально обоснованное получение нейронного синтаксиса

Как мы понимаем синтаксис? Когда мы были детьми, нам приходилось извлекать это из данных, из направленного на нас языкового потока. Но что действительно помогало, так это то, что язык часто сочетался с образами: мы слышали такие предложения, как «Кот спит на улице», «Кот смотрит на тебя» или «Кот играет с мячом», и сопоставляя их с тем, что мы увидел, что мы можем выделить понятие «кошка».

Haoyue Shi et al. (Антология ACL) спрашивают, как реализовать эту технику для моделей глубокого обучения: можем ли мы сгенерировать лингвистически правдоподобную структуру для текста с учетом набора параллельных данных изображения-текста (скажем, набора данных MS COCO)? Они используют понятие конкретность: конкретные участки в дереве синтаксического анализа, такие как кошка, с большей вероятностью будут соответствовать объектам на изображении. Это понятие может быть зафиксировано частью сети, которая оценивает конкретность на основе взаимосвязи между заголовками и изображениями. Вся сеть изучает совместное пространство встраивания, которое объединяет изображения и составляющие в одном векторном пространстве с тройной потерей на основе петель; абстрактность и конкретность определяются в одном пространстве вложения. В целом структура выглядит так:

При таком подходе авторы получают модель, которая совместно изучает деревья синтаксического анализа и визуально обоснованные текстовые представления. Они показывают современные результаты синтаксического анализа с гораздо меньшим объемом данных, чем требуется для современных текстовых моделей.

Оставайтесь на пути: точность инструкций в визуальной и языковой навигации

Эта работа исследователей Google Вихана Джайна и др. (Антология ACL) имеет дело с быстрорастущей областью визуальной и языковой навигации (VLN): как мы можем давать инструкции агентам на естественном языке и заставлять агентов планировать свои действия, перемещаться и реагировать на изменения в их визуальном восприятии. поле? Характерным примером здесь может служить набор данных Room-to-Room (R2R), который содержит изображения реальной внутренней среды, где агента просят следовать таким инструкциям, как, например, Сделайте левый спуск в узком холле рядом с офисом и идите прямо к выходу. Выйди за дверь и подожди . На карте это может выглядеть примерно так:

Авторы переходят от R2R к R4R, где инструкции более подробны, пути длиннее, и агент должен следовать конкретным инструкциям по навигации, а не просто находить кратчайший путь от точки к точке. Например, агент, обнаруживший красный путь в правой части изображения выше, будет оштрафован, если фактическая инструкция должна идти по синему пути; агент, использующий оранжевый путь на изображении, работает лучше, даже если ему не удается достичь цели.

Все модели, основанные на усиленной модели кросс-модального сопоставления (RCM), разработанной Wang et al., Теперь также представлены в двух вариантах с разными вознаграждениями: ориентированные на цель агенты просто хотят достичь цель, тогда как ориентированные на верность агенты имеют целевую функцию, которая вознаграждает следование эталонному пути. Неудивительно, что последний лучше справляется с R4R. Как правило, в работе утверждается, что верность пути - лучшая цель, если наша цель - лучше понять инструкции на естественном языке - проблема в том, чтобы понять инструкцию в целом, а не просто извлечь конечную точку.

Выражение визуальных отношений с помощью языка

И вот наш главный момент в разделе о визуально обоснованном НЛП. В этой работе исследователи Adobe Hao Tan et al. (Антология ACL) перейти от уже классической проблемы изображения субтитров, т. Е. Описания на естественном языке того, что изображение содержит, к редактированию изображения , т.е. описание того, что мы хотим делать с изображением. Нам нужна модель, которая может получить такой запрос, как Добавьте меч и плащ к белке, и сделает что-то вроде этого:

Итак, первый вопрос: как собрать такой набор данных. Контролируемый набор данных должен состоять из троек: исходного изображения, запроса на редактирование и измененного изображения. Во-первых, авторы просканировали сообщество для совместного редактирования изображений под названием Zhopped (примечание: я буду очень удивлен, если за этим сайтом не будет русскоговорящих) и Reddit; в частности, есть Reddit под названием r / PhotoshopRequest, где вы можете попросить людей помочь вам с редактированием изображений. Это дало пары исходных и отредактированных изображений. Хотя Reddit и Zhopped содержат исходные запросы на редактирование от пользователей, они обычно очень шумные и часто разговорчивые, поэтому авторы решили повторно выполнить все запросы вручную с помощью краудсорсинга.

Эта процедура дала набор данных для редактирования изображений. Авторы также использовали набор данных Spot-the-Diff из (Jhamtani, Berg-Kirkpatrick, 2018), который фокусируется на обнаружении изменений между двумя изображениями. Теперь проблема состоит в том, чтобы сгенерировать текст из пары изображений, например:

Третий набор данных с тройками изображение-изображение-текст - это набор данных NLVR2 (Suhr et al., 2018), который подчеркивает взаимосвязь между двумя изображениями. Учитывая два изображения и утверждение, вы должны классифицировать, является ли утверждение истинным или ложным; Для целей этой статьи авторы просто использовали правильные утверждения и преобразовали это в проблему с субтитрами для пары изображений:

Теперь, когда у нас есть данные, что насчет моделей? Для ясности, давайте сконцентрируемся на задаче создания предложения, описывающего отношения между парой изображений. В статье используются четыре различные модели с естественной последовательностью между ними. Давайте посмотрим на блок-схему и обсудим ее:

Это довольно много для анализа, но на самом деле это тщательное наращивание хорошо известных идей в данной области. Первая модель (а) представляет собой адаптацию модели кодер-декодер с вниманием, очень похожую на те, которые использовались Xu et al. и Джамтани и Берг-Киркпатрик. Он конструирует функции из входных изображений, объединяет их, а затем использует это как контекст для предсказания следующего слова с повторяющейся архитектурой.

Базовая модель, однако, даже не делает различий между двумя входными изображениями. Чтобы исправить это, модель (b) переходит к многоголовому вниманию - идее, очень популярной в НЛП благодаря Transformer и его последующим моделям. В модели (b) внимание применяется последовательно, так что, когда модель обращается к целевому изображению, у нее может быть контекст из уже доступного исходного изображения, и она может сразу знать, где искать различия.

Модели © и (d) вводят концепцию реляционного внимания. Это означает, что они могут вычислять относительные оценки между исходным и целевым изображениями (и наоборот, как вы можете видеть, там есть два модуля внимания). В статической модели © оценки затем сжимаются в две последовательности признаков, при этом возможно потеря некоторой информации по пути, в то время как динамическая модель (d) делает это динамически во время декодирования и имеет доступ к полным оценкам.

Естественно, этот прогресс означает, что показатели качества улучшаются по мере перехода от модели (а) к модели (г). Вот несколько примеров результатов из статьи, как положительных, так и отрицательных:

Как видите, иногда современные модели на самом деле довольно хорошо понимают, что происходит с изображениями, но иногда они теряются и определенно не понимают, о чем говорят.

Слабо контролируемое пространственно-временное обоснование естественного предложения в видео

Традиционное заземление видео - это проблема локализации пространственной области в определенных видеокадрах, которая соответствует определенной части запроса естественного языка (скажем, найти часть пространственно-временной трубки, т. Е. видео тензор, соответствующий чашке кофе). Однако для этого требуются плотные мелкозернистые региональные аннотации в видео, которые очень трудно получить, поэтому эта работа Zhenfang Chen et al. (Антология ACL) считает слабо контролируемое заземление видео. Более того, они переходят к общей проблеме локализации пространственно-временной трубки, которая соответствует данному предложению в целом, а не конкретному существительному. Они называют эту проблему предложением со слабым контролем пространственно-временного обоснования в видео (WSSTG); нравится:

Чтобы решить эту проблему, авторы используют конвейер со стандартным детектором объектов Faster R-CNN для генерации предложений ограничивающей рамки (генератор экземпляров ниже), модуль «Attentive Interactor», который объединяет созданные RNN представления для текста и предлагаемых областей, а затем все это тренируется с потерей ранжирования и потерей разнообразия с множественным обучением. Вот весь конвейер:

Авторы также собирают и представляют новый набор данных, предназначенный для решения этой проблемы, с видеороликами, в которых некоторые целевые регионы аннотируются предложениями. В этом подходе нет ничего слишком сенсационного, но, как это часто бывает с современными моделями глубокого обучения, большой сюрприз, что он действительно работает! Полученная модель может правильно понимать довольно сложные запросы. Вот пример сравнения из статьи:

Набор данных фотокниги: поиск точек соприкосновения через визуально обоснованный диалог

И последняя статья дня была написана Яношом Хабером и др. (Антология ACL). В этом наборе данных основное внимание уделяется не субтитрам, а визуально обоснованному диалогу, то есть разговорам. Авторы утверждают, что одна важная причина, по которой диалог является трудным, заключается в том, что участники полагаются на свои общие знания и общий лингвистический опыт, который они накапливают во время разговора, а текущие модели диалога по-прежнему не могут действительно уловить эту общую основу. Поэтому их предложение состоит в том, чтобы создать набор данных, в котором основа будет не только разговорной, но и визуальной. Это реализовано в виде игры: два участника видят по шесть фотографий, и им нужно выяснить в диалоге, какие из трех выделенных фотографий у них общие (некоторые из них одинаковые, а некоторые разные). Они делают это в естественном диалоге, и визуальная область тоже контролируется, поэтому изображения достаточно похожи, чтобы потребовать от участников подробного описания. Вот пример:

Более того, игра состоит из пяти раундов (отсюда «Страница 1 из 5» в верхнем левом углу), и в последующих раундах некоторые изображения могут снова появляться, что побуждает участников делать взаимно ссылающиеся описания изображений. Таким образом, этот крупномасштабный сбор данных на основе краудсорсинга позволяет авторам не только иметь хороший набор данных для обучения, но и делать некоторые выводы о том, как люди говорят об изображениях. Особенно интересные выводы касаются того, как игра меняется в течение пяти раундов: по мере прохождения игры высказывания становятся намного короче, доля существительных и слов содержания значительно увеличивается, но эти слова также начинают много повторяться, поэтому появляется меньше новых. существительные, представленные в более поздних раундах. Это именно та «точка соприкосновения», которую трудно уловить в разговорной модели.

Затем авторы представляют две базовые модели для визуального обоснования: одна без истории диалогов, а другая получает (в обработанной форме) ссылки из предыдущих раундов беседы. Естественно, что последняя модель более успешна на более поздних этапах игры; в приведенном ниже примере обе модели отлично работают в левом примере, но только модель на основе истории может управлять примером справа (и неудивительно!):

Но обе модели все еще далеки от совершенства, и, конечно же, авторы надеются, что этот набор данных послужит точкой соприкосновения (простите за каламбур) для дальнейших исследований в этой области.

На этом мы заканчиваем раздел «Зрение, робототехника, мультимодальные перевозки, заземление и речь». Нас часто засыпают рассказами СМИ о сенсационных достижениях ИИ. Обычно журналисты не пытаются нам лгать, но часто бывает трудно сказать, демонстрируют ли они лучший пример или готовое решение. Таким образом, было очень поучительно видеть, каково на самом деле состояние дел в этих вещах. Для большинства моделей, которые мы видели сегодня, мой вывод таков: иногда они работают, и вы можете найти действительно классные примеры, если посмотрите, но очень часто они все равно теряются. С другой стороны, многие из этих исследований кажутся очень многообещающими и для реальных приложений. Мы должны оставаться в курсе этого исследования, но ясно, что до истинного глубокого понимания изображений из реального мира и подлинной способности выражать изображения словами или наоборот еще довольно далеко.

Сергей Николенко
Главный научный сотрудник, Neuromation