"Кто я?" - это интерактивная игра для вечеринок, в которой участники задают вопросы «да» или «нет», чтобы получить подсказки и угадать скрытую личность персонажа. Когда в игру вступают люди, со временем появляется ряд обычно эффективных стратегий. Теперь исследователи из Пекинского университета почты и телекоммуникаций представили новую модель отслеживания состояния визуального диалога (VDST), которая неплохо справляется с похожей игрой на угадывание визуального диалога «GuessWhat ?!»

Визуальный диалог - это мультимодальная задача, включающая видение, язык и рассуждения в непрерывном разговоре. Визуальный диалог в приложении для работы с фотографиями может помочь пользователям в интерактивном режиме находить объекты - например, люди с ослабленным зрением могут идентифицировать на фотографиях людей, здания, ориентиры и т. Д.

Угадай, что?! это игра-угадайка для двух игроков, представленная в качестве испытательного стенда для взаимодействия компьютерного зрения и исследований диалоговых систем в Монреальском университете, Инрии, DeepMind и статье Twitter GuessWhat ?! Обнаружение визуальных объектов через многомодальный диалог. Спрашивающему и оракулу дается изображение, включающее несколько объектов. Oracle тайно выбирает один целевой объект, который запрашивающий пытается идентифицировать, задавая Oracle вопросы типа да / нет.

У Вопросника есть две подзадачи: Генератор вопросов (QGen) для генерации визуально обоснованных вопросов; и Guesser, чтобы идентифицировать целевой объект с учетом полного контекста диалога.

Предыдущие модели генерации вопросов уделяли меньше внимания представлению и отслеживанию состояний диалогов и, как правило, задавали некачественные и повторяющиеся вопросы. Чтобы решить эту проблему, исследовательская группа предложила модель QGen на основе визуального отслеживания состояния диалога (VDST), которая включает в себя многоэтапный цикл рассуждений визуально-языкового-визуального.

Состояние визуального диалога отражает как представление, так и распределение объектов на изображении. Представления отслеживаются и обновляются с изменениями в распределении, а внимание, основанное на различиях объектов, используется для декодирования новых вопросов. Распределение обновляется путем сравнения пары вопрос-ответ и объектов.

Вопросник использует ответы, полученные от Оракула, чтобы заново оценить, на что наиболее эффективно направить свое внимание в изображениях.

Это исследование демонстрирует производительность SOTA на GuessWhat ?! Задача QGen по четырем различным методам обучения: раздельное обучение с учителем, совместное обучение с учителем, раздельное обучение с подкреплением и совместное обучение. Предлагаемая модель снижает частоту повторных вопросов с более чем 50 процентов до 21,9 процента по сравнению с предыдущими методами SOTA.

Исследователи отметили, что проблемы, которые необходимо решить в будущем, включают в себя то, как научиться более гибкой политике задавания вопросов, и улучшить суждение о том, когда перестать задавать вопросы, а когда делать предположения.

Документ Визуальное отслеживание состояния диалога для генерации вопросов доступен на arXiv.

Автор: Юйцин Ли | Редактор: Майкл Саразен

Мы знаем, что вы не хотите пропустить ни одной истории. Подпишитесь на наш популярный Synced Global AI Weekly , чтобы получать еженедельные обновления AI.

Нужен всесторонний обзор прошлого, настоящего и будущего современных исследований в области искусственного интеллекта? Отчет Тенденции развития технологий искусственного интеллекта вышел!

Вышел Отчет об адаптивности AI для публичной компании Fortune Global 500 за 2018 год!
Приобретите отчет в формате Kindle на Amazon.
Подайте заявку на участие в Партнерской программе Insight, чтобы получить бесплатный полный отчет в формате PDF.