Путь к расположенному А.И.

Краткий обзор нашего предстоящего объявления на NeurIPS 2018

Мы с гордостью сообщаем вам, что TwentyBN на один шаг ближе к достижению своей цели по созданию контекстно-зависимого цифрового искусственного интеллекта. компаньон. На NeurIPS в декабре мы запустим в реальном времени А.И. который ощущает присутствие человека, понимает вовлеченность и взаимодействует со своими пользователями как человек. Обязательно загляните в нашу будку или подпишитесь на нас в Twitter и LinkedIn.

После появления ImageNet с 2012 года появилось много стартапов в области глубокого обучения, чтобы пожинать плоды простого распознавания изображений. Однако в TwentyBN мы движимы истинными инновациями, которые, по нашему мнению, могут быть достигнуты, только начав с чистого листа бумаги и создав то, чего еще не существует.

Наш опыт научил нас, что создание искусственного интеллекта которые могут воспринимать, рассуждать и взаимодействовать с людьми естественным образом, требует неустанных усилий по расширению границ компьютерного зрения, особенно понимания видео в реальном времени. Это то, что мы называем расположенным ИИ. может научиться не только обнаруживать объекты (существительные), но также понимать смысл действий (глаголы) и понимать нюансы ситуаций, которые мы переживаем, могут происходить удивительные вещи .

Получив возможность создать A.I. которые могут принести огромную пользу такой ориентированной на человека отрасли, как розничная торговля, мы думали, что покажем вам, как мы дошли до этого момента на нашем пути к здравому смыслу искусственного интеллекта. Поэтому совершенно уместно, что мы отправим вас в короткое путешествие назад во времени, пройдя через серию прорывов в области глубокого обучения, и увидим, почему понимание видео играет такую важную роль для действительно ориентированного ИИ. системы.

1. Классификация

Давайте вернемся в 2012 год, когда последний A.I. лето . На фоне доступности набора данных ImageNet и мощных видеокарт Hinton et al. доказал, что глубокое обучение - это верный путь к решению проблемы классификации изображений, которая является началом нашего континуума по отношению к человекоподобным, расположенным А.И. По сути, классификация изображений подразумевает, что нейронная сеть, обычно сверточная нейронная сеть (CNN), правильно видит объект на изображении. Чтобы обучить нейронную сеть определять, изображает ли изображение хот-дог или нет (хот-дог), например, мы скармливаем CNN тысячи изображений, помеченных как хот-дог или не хот-дог. Первоначально предполагая наугад, сеть постепенно учится классифицировать хот-дог или нет путем проб и ошибок. На сегодняшний день классификация изображений считается решенной. И да, есть приложение Not Hotdog.

2. Субтитры

Когда нейронная сеть может «видеть» объекты, следующим шагом будет связное описание на языке того, что она видит, например «Мальчик с хот-догом в руке». Это задание с субтитрами. В подписи наш A.I. должен не только классифицировать объекты на изображениях, но и учиться связывать объекты с соответствующими существительными, а затем писать грамматически правильные предложения. Чтобы видеть и описывать одновременно, мы добавляем еще одно сетевое расширение к нашему классификатору изображений на основе CNN, рекуррентную нейронную сеть (RNN), которая пригодится для задач, связанных с языком. В этой архитектуре сеть CNN интерпретирует то, что она видит на изображении, а затем кодирует информацию для передачи в сеть RNN. Как только сеть RNN получает информацию, она декодирует ее и строит описательное предложение того, что видит. Этот тип субтитров А.И. который использует кодировщики изображений и декодеры ответов, работает достаточно хорошо.

К сожалению, вскоре после того, как субтитры начали работать примерно в 2013 году, A.I. Сообщество осознало, что их RNN не так умны, как они думали. Во многих случаях RNN научились «жульничать», просто распознавая выдающиеся объекты (такие как «сосиски», «булочка», «ребенок») и превращая их в правильно сформированные предложения. Например, если мы покажем обманывающему RNN изображение сосиски, булочки и ребенка, оно будет читать «ребенок ест хот-дог», независимо от того, изображает ли изображение процесс еды.

3. VQA

Если бы только мы могли создать бота с подписями, чтобы не только видеть изображение, но и отвечать на вопрос об изображении. Такая система может стать немного более интерактивной. Исследователи называют этот тип ИИ. Визуальный ответ на вопрос (VQA), на который вы можете задать вопрос типа сколько хот-догов мальчик держит в руке? Вместо того, чтобы кормить УПК просто изображением, мы также задаем ему вопрос. В частности, модель VQA имеет как кодировщик изображений на основе CNN, который видит, так и кодировщик вопросов на основе RNN, каждый из которых передает информацию декодеру ответов на основе RNN. Затем декодер генерирует предложение, отвечающее на вопрос, которое основано на том, что он видит на изображении. VQA может помочь слепым и слабовидящим людям узнать о физическом мире, но его текущее состояние позволяет ему интерпретировать только статические изображения.

4. Визуальный диалог

Что, если мы хотим задать боту более одного вопроса? Кто стоит на изображении? Парень. Что держит мальчик? Хот-дог. Есть ли кетчуп на хот-доге? да. Чтобы такой визуальный диалог отвечал на вопросы, построенные один над другим, мы должны оснастить наш A.I. с памятью, чтобы вспомнить контекст диалога и историю чата. Таким образом, помимо кодировщика изображений и кодировщика текущего вопроса, мы добавляем в наш стек еще одну часть - кодировщик контекста или истории диалогов на основе RNN. Как только кодировщик ответов генерирует предложение, мы передаем информацию обратно в кодировщик истории контекста / диалога в качестве памяти для нашей нейронной сети.

Визуальный диалог А. отличается от обычного чат-бота, с которым вы взаимодействуете во время службы поддержки. Это потому, что мы должны основывать язык визуального диалогового бота на визуальных концепциях. Схемы Винограда или лингвистические головоломки, требующие здравого смысла, лучше всего иллюстрируют разрыв между текстовым чат-ботом и ботом для визуального диалога: «Сосиска не поместится в булочку с хот-догом, потому что она слишком велика. Что слишком велико? ”Для A.I. Чтобы понять и ответить на этот вопрос, он должен понимать пространственные отношения и свойства объектов. Например, сосиски - это длинная колбаса, а булочка - круглая с отверстием; изучение действия по помещению объекта в другой, поскольку чистый текст имеет свои ограничения. Вот почему визуальное обоснование имеет решающее значение для углубленного понимания языка и здравого смысла для искусственного интеллекта. Это также причина того, почему визуальный диалог имеет такой большой потенциал в развитии искусственного интеллекта. выходит далеко за рамки простого компьютерного зрения.

Но помните, что все A.I. мы обсуждали до сих пор, использовать только статические изображения в качестве визуального контента. Этого может быть достаточно, чтобы понять сосиски и булочки для хот-догов, но изображений недостаточно для машин, чтобы понять действия, такие как положить сосиску в булочку. И это больше, чем просто существительные и глаголы: богатые видеоданные лучше всего представляют основные физические свойства мира, такие как его трехмерная структура и наличие сил, таких как гравитация. По этой причине мы сосредоточились на двух основных целях: создание и поддержка крупнейшей крауд-актерской платформы для глубокого обучения и обучение искусственному интеллекту. чтобы глубже понять мир через эти видео . Визуальный диалог А. с пониманием видео в реальном времени - это как умный товарищ, говорящий с открытыми глазами, чтобы видеть, понимать и действовать в соответствии с изменениями, происходящими прямо здесь и прямо сейчас.

5. Человекоподобный, расположенный ИИ.

Вот почему наше декабрьское объявление имеет значение. TwentyBN создал расположенный по адресу A.I. и на один шаг ближе к машине, которая может воспринимать, рассуждать и действовать в динамической среде. Мы попали сюда, объединив диалоги А.И. с пониманием видео, обученным на наших визуальных видеоданных, основанных на здравом смысле. Наш контекстно-зависимый ИИ. консьерж, специально подобранный для розничных покупок, не только увидит вас и решит, заинтересованы ли вы в разговоре с ней, но также поймет ваши действия и вступит с вами в разговор.

Вы уже взволнованы?

Подпишитесь на нас в Twitter и LinkedIn, чтобы оставаться на связи, поскольку мы готовимся представить следующий шаг в понимании видео.