Как разрабатывается SingularityNET для создания более эффективных моделей высших когнитивных функций.

Вступление

В разгар этой весны искусственного интеллекта может показаться странным, что пророчества о будущем искусственного интеллекта стали немного холодными. Предупреждения о том, что конец близок, усилились, и некоторым может показаться, что для AI приближается зима.

Установив ожидания, что глубокие нейронные сети могут позволить реализовать более высокие когнитивные функции, такие как рассуждение или решение проблем, многие исследователи и разработчики ИИ теперь чувствуют себя обманутыми.

Хотя глубокие нейронные сети добились некоторого прогресса в этом направлении, он гораздо менее впечатляющий, чем тот, который наблюдается в распознавании объектов.

Рассмотрим, например, такой простой вопрос:

«Где жираф?»

Когда глубокие нейронные сети (DNN), используемые в современных решениях для визуальных ответов на вопросы (VQA), задаются этим вопросом, высока вероятность того, что ответ будет «зоопарк». Даже если это изображение игрушечного жирафа, лежащего на ковре в детской комнате, или футболки с изображением жирафа.

Вы можете использовать эту онлайн-демонстрацию, чтобы задать свои вопросы. Читая ответы, вы можете начать понимать, почему количество предупреждений увеличивается.

Однако, несмотря на полученное внимание и финансирование, глубокое обучение не составляет всей области ИИ. Фактически, исследователи пытались моделировать когнитивные функции более высокого уровня задолго до появления глубокого обучения.

Однако эти модели когнитивных функций более высокого уровня были отделены от сенсорных данных. Такое разделение существенно ограничивало удобство использования этих моделей, поскольку им было сложно автоматически приобретать новые знания.

Когнитивные архитектуры были задуманы как интегрированные системы; при этом Emergent Cognitive Architectures по существу аналогичны Deep Neural Networks и Symbolic Cognitive Architectures, унаследовав ограничения Good Old-Fashioned AI (GOFAI).

Если мы хотим преодолеть трудности, с которыми в настоящее время сталкиваются при моделировании высших когнитивных функций, преодоление символического / субсимвольного разрыва, также известного как семантический разрыв, необходимо как для глубоких нейронных сетей, так и для символических когнитивных архитектур.

Следовательно, SingularityNET будет заполнен различными типами узлов, которые не только облегчат интеграцию глубоких нейронных сетей с символическими когнитивными архитектурами, но также помогут преодолеть их ограничения.

Но как именно совместить глубокие нейронные сети с символическими рассуждениями? Хотя гибридные когнитивные архитектуры пытаются восполнить этот пробел, проблема еще далека от решения.

Рассмотрим на примере OpenCog. Хотя он имеет гибридную архитектуру, его ядро ​​(наиболее развитая часть) намного лучше решает символические проблемы, чем обработка необработанных сенсорных данных.

Получение изображения

Когда мы пытаемся вспомнить контекст, в котором мы видели конкретное изображение, наш мозг не перечисляет все увиденные изображения - или даже их высокоуровневые характеристики - но сокращает возможные контексты, «выявляя» соответствующие места и события.

Эти типы запросов могут быть естественным образом представлены в OpenCog. В нашей недавней статье описан первый (упрощенный, но поучительный) эксперимент с подобным семантическим поиском изображений.

В этом эксперименте обработка каждого кадра видео проводилась с помощью объектного детектора YOLOv2. Обнаруженные граничные рамки (BB) были вставлены в AtomSpace - базу знаний гиперграфов OpenCog.

Узел для каждого видеокадра был добавлен вместе с узлами для каждого ограничивающего прямоугольника (BB). Затем эти узлы BB были соединены с узлами фрейма связями элементов (что указывает на то, что ограничивающие прямоугольники являются частью конкретного фрейма).

Наконец, каждый узел BB был связан с узлом концепции, соответствующим не только метке, присвоенной узлу BB, но также и координатам углов BB.

Учитывая выходные данные детектора объектов, довольно просто заполнить AtomSpace такими узлами и связями. После этого можно выполнить простые запросы, например: «найти все кадры, содержащие автомобиль и вертолет».

Соответствующий запрос может быть выражен с помощью GetLink (или BindLink, если мы хотим, чтобы результаты помещались в AtomSpace), который использует OpenCog Pattern Matcher для поиска подграфа в AtomSpace, который соответствует заданному шаблону (т.е. , узлы).

Чтобы иметь возможность выполнять более интересные запросы, необходимо представить некоторые отношения между объектами. В этом отношении можно использовать взаимное расположение ограничивающих рамок.

Так, например, такие запросы, как «ваза на столе» или «картина с человеком», можно формализовать с помощью простых в реализации предикатов, таких как Higher и Inside. В результате мы успешно получили кадры, подобные показанным ниже:

Преимущества и ограничения: сравнение с чистыми решениями для глубоких нейронных сетей

Если мы сохраним последовательность видеокадров и будем искать эти кадры с помощью нейронных сетей, это будет не только неэффективным процессом, но и сложным для выполнения. Следовательно, семантический поиск изображений не реализуется исключительно на основе глубоких нейронных сетей.

Современные решения для визуальных ответов на вопросы (VQA) представляют собой сквозные обучаемые глубокие нейронные сети. Хотя такие решения относительно успешны, они далеки от совершенства. Глубокие нейронные сети не понимают изображений или вопросов, и их легко обмануть.

Пример с жирафом (упомянутый в начале этой статьи) иллюстрирует ограничения глубоких нейронных сетей. Ошибка легко объяснима: глубокие нейронные сети через некоторое время сформировали ассоциацию между вопросом, изображениями жирафов и «зоопарком» в качестве ответа.

Более того, хотя глубокие нейронные сети хорошо отвечают на типичные вопросы о значимых объектах, им сложно справляться с вопросами, требующими нескольких шагов вывода. Это потому, что глубокие нейронные сети плохо умеют обобщать и рассуждать. Одним из примеров такого вопроса может быть: «Какого цвета платье на девушке слева от мужчины?»

OpenCog может легко выполнить несколько этапов рассуждения, а также позволяет делать обобщения. Однако есть некоторые препятствия в применении OpenCog для визуального ответа на вопросы.

В OpenCog, хотя мы естественным образом можем сопоставить вопросы VQA с запросами Pattern Matcher (что является примечательным фактом), меток ограничивающих рамок недостаточно для создания ответов.

Рассмотрим, например, простой вопрос: «Какого цвета машина?»

Если у нас нет ссылки в графе знаний, которая соединяет некоторую ограничивающую рамку с обоими: концептуальным узлом «автомобиль» и концептуальным узлом, соответствующим какому-либо цвету, сопоставитель шаблонов не сможет ответить на этот вопрос.

Это ограничение существует по нескольким причинам.

Во-первых, детекторы объектов не предоставляют дополнительных меток, таких как цвета или предполагаемые действия для обнаруженных ограничивающих рамок. Что еще более важно, некоторые метки не могут быть назначены на основе содержимого определенного ограничивающего прямоугольника и должны быть выведены из контекста. Примером такого случая может быть: «этот медведь, скорее всего, ест, потому что поблизости есть кусок мяса».

Эта потребность в выводе ярлыков из контекста подчеркивает, почему нам нужно какое-то обоснование для VQA. Таким образом, хотя вопросы VQA могут быть представлены как запросы к базе знаний, ответы на запросы потребуют более глубокого погружения в сенсорные данные.

Давайте теперь проанализируем, как работают успешные модели VQA на основе глубоких нейронных сетей. Такие модели извлекают ограничивающие прямоугольники и используют слово вложения из вопросов для распределения внимания между ограничивающими прямоугольниками.

В этих моделях, в отличие от нашего предварительного эксперимента, описанного выше, ограничивающие прямоугольники представлены не их метками, а их функциями более высокого уровня. Эти представления затем объединяются со словесными вложениями из вопросов и передаются классификатору. Однако это еще не все, внимание сверху вниз может дополнительно потребовать выбора соответствующих ограничивающих рамок, а также обнаружения любых недостающих незаметных объектов (например, «У всех мужчин есть борода?»).

Следовательно, для преодоления семантического разрыва неглубокой интеграции недостаточно, и необходима когнитивная обратная связь от рассуждения к восприятию. Кроме того, интеграция должна быть достаточно близкой, чтобы обеспечить сквозное обучение. Фактически, именно отсутствие тесной интеграции ограничивает удобство использования традиционных систем искусственного интеллекта. И именно по этой причине OpenCog нуждается в изучении языка без учителя.

Также можно сказать, что глубокие нейронные сети менее хрупкие по сравнению с системами хорошего старомодного ИИ (GOFAI). Можно даже утверждать, что они слишком надежны. Потому что они не только очень уверенно отвечают на бессмысленные вопросы, но также иногда игнорируют некоторые слова в вопросе, чтобы сосредоточиться на неправильной граничной рамке и дать бессмысленные ответы (например, «камень пьет воду»).

Следовательно, эта потребность в балансе надежности и строгости потребует глубокой интеграции различных типов систем.

Как вы можете принять участие?

Мы надеемся, что этот пост прояснил необходимость устранения глубокого семантического разрыва. В наших будущих публикациях мы подробно опишем наши планы по преодолению этой проблемы. Таким образом, мы надеемся, что на SingularityNET будут развернуты более эффективные модели высших когнитивных функций.

Обязательно посетите наш Форум сообщества, чтобы обсудить исследования, упомянутые в этом посте. В ближайшие недели мы надеемся не только предоставить вам более широкий инсайдерский доступ к новаторским исследованиям SingularityNET в области искусственного интеллекта, но и поделиться с вами особенностями наших разработок.

Для получения дополнительной информации, пожалуйста, обратитесь к нашим дорожным картам и подпишитесь на нашу рассылку новостей, чтобы быть в курсе всех наших разработок.