Основатели Ozlo о своем API знаний для помощников ИИ. Вспомните Siri, но с нюансом.

В четверг стартап Ozlo из Пало-Альто, штат Калифорния, объявил о выпуске собственной платформы знаний для виртуальных помощников. По сути, Озло создал большой указатель, полный людей, мест и вещей, а также информации о них. Его API может действовать как своего рода мозг для существующих цифровых помощников, гипотетически позволяя Siri, например, возвращать список результатов ресторана вместе с информацией о том, какие из них с наименьшей вероятностью вызовут нервный срыв у вашего малыша.

Я поговорил с соучредителями Ozlo Чарльзом Джолли (генеральный директор) и Майклом Хэнсоном (технический директор) о компании и о том, что она пытается сделать. Вот слегка отредактированная версия этого обсуждения.

АРХИТЕКТОР: Я бы назвал то, что делает Озло, умной игрой помощника с гораздо большим контекстом и ощущением степени правды, если хотите. Это точно?

ЧАРЛЬЗ ДЖОЛЛИ: я бы сказал, что это довольно точное описание, но я бы поменял местами эти два. Озло действительно занимается построением этого слоя знаний, который мы назвали индексом утверждений о мире. Он предназначен для питания интеллектуальных систем.

Мы основали эту компанию три года назад. Мы работали в Apple, я работал в Facebook, Майк работал в Cisco и так далее. Мы могли бы видеть, что грядет большой сдвиг в том, как люди будут взаимодействовать со своими компьютерами в сторону более интеллектуальных интерфейсов.

Я думаю, что за последние три-четыре года большие усилия в области глубокого обучения и тому подобного были направлены на то, чтобы люди хотели извлечь больше сигналов из имеющихся у них данных. Мы считали, что для создания системы, с которой люди смогут взаимодействовать, с которой они захотят разговаривать каждый божий день, будь то в наших домах, машинах, телефонах или где-либо еще, вам нужно соединить это с большим количеством фоновые знания о мире в целом.

Знания — это ключ к тому, чтобы сделать все интеллектуальные системы по-настоящему великолепными, и на самом деле не так много мест, где вы можете получить к ним доступ. Вы идете в Google за их диаграммой знаний, вы идете в Microsoft за их диаграммами знаний и действий, а затем вы можете перейти к нам. Вы сможете получить доступ к графику, который мы построили и который мы первоначально протестировали в полевых условиях с нашим собственным помощником.

Большая разница между нашей и их системами заключается в том, что эти другие системы были созданы для предыдущей эпохи, когда основным приложением было информационное окно на поисковых сайтах. В том мире действительно имели значение принятые факты, которые можно было показать в коробке. Такие вопросы, как «Когда Авраам Линкольн был президентом Соединенных Штатов?»

Что важно для интеллектуальных интерфейсов, когда вы разговариваете с говорящим или что-то в этом роде, так это гораздо более широкий смысл знания, который включает в себя как факты, так и то, что мы называем утверждениями. Это субъективные истины. Это могут быть такие вопросы, как «Это место подходит для обеда?» Один из моих любимых… Здесь поблизости есть кофейня под названием Philz: «У Фила подают старомодные?» «Ну, есть, но это кофе, а не напиток».

Есть одна субъективная или контекстуально верная вещь, которую вам нужно понять, она намного сложнее, чем просто принятое черное или белое. Это действительно то, что отличает нашу систему, она способна отображать весь этот серый цвет.

Теперь мы делаем это доступным для некоторых партнеров для питания их систем в полевых условиях. Особенно компании, которые имеют присутствие дома и проникают в это пространство, которое действительно набирает обороты.

Как, например, Ozlo сравнивается с Knowledge Graph от Google? И как вы сопоставляете это с точки зрения огромного объема данных и информации?

ДЖОЛЛИ: На данный момент речь идет не о том, чтобы весь Интернет загружался на ваши серверы. Мы можем получить данные из Интернета довольно легко. В наши дни это намного более рентабельно, чем когда Google только начинал, потому что у нас есть много инноваций, таких как AWS.

Я думаю, что более серьезная проблема заключается в том, что вы должны разработать индекс для этих типов интеллектуальных систем — видов знаний, которые вы хотите извлечь, и отношений, которые вы хотите понять. Способность понять эти субъективные отношения действительно важна. Это не то, что Google уделяет приоритетное внимание, потому что это не то, для чего они действительно разрабатывали его в первую очередь.

МАЙКЛ ХАНСОН: В интеллектуальном интерфейсе вам нужно иметь возможность рассуждать именно в тех областях, где факты [нечеткие]. Вам нужна возможность сказать: «Интернет не согласен по этому поводу» или «Некоторые люди говорят то, некоторые другие говорят то». Вам нужна программная система, чтобы иметь возможность понять, что достоверность факта низкая, чтобы вы могли уверенно взаимодействовать с пользователем по этому факту.

Это другая поисковая система, где на самом деле вы пытаетесь оценить релевантность. Вы пытаетесь сказать: «Ну, да, этот документ очень актуален, этот документ в некотором роде актуален, этот документ лишь немного актуален. И я собираюсь показать их вам, потому что, если я покажу их достаточному количеству случайных людей, в конце концов я узнаю, на какие из них люди нажимают».

Это не то же самое, что вам нужно в интеллектуальном интерфейсе, где вы хотите, чтобы он сказал: «В этой части все согласны. В этом фрагменте есть существенные разногласия. Я могу поговорить с вами об этом разногласии, и я могу показать вам, что там происходит, и вы, человек, можете делать свое умное человеческое дело».

Так, например, если я задаю своему Amazon Echo вопрос, который он не понимает, Alexa вместо того, чтобы просто ответить на вопрос, может ответить: "Ну, может быть..."

[ДЖОЛЛИ]Именно так. «Может быть, и», наверное, важнее. На самом деле это огромная часть.

Например, когда Siri вышла в 2011 году, основной проблемой, когда Siri не понимала вас, были ошибки транскрипции. Это был компонент преобразования речи в текст этой системы. Вот что я имел в виду: решение этой проблемы действительно состоит в том, чтобы получить лучший сигнал из ваших собственных данных. На самом деле вам не нужно понимать все о мире, чтобы транскрибировать голос в текст, вам просто нужно иметь много-много примеров говорящих людей, а затем заставить их отображать правильное значение.

В наши дни это довольно решаемая проблема, поэтому, когда вы разговариваете со своей Alexa, довольно редко возникает проблема с транскрипцией. Чаще всего он просто недостаточно понимает смысл, мир, в котором вы находитесь, чтобы быть в состоянии разумно предложить правильный ответ.

Настоящий Святой Грааль в этом — возможность задать вопрос в ответ: «Вы сказали, я хочу гвозди. Вы пытаетесь сделать ваши ногти? Хотите купить гвозди? Что ты имеешь в виду?" Людям это кажется простым, но сегодня это чрезвычайно сложно, потому что ни у кого нет доступа к такого рода знаниям.

«Причина, по которой мы начали с индекса, заключается в том, что мы поняли, что то, что… кому-то еще очень сложно воспроизвести. Много раз это действительно бесполезно для них; им лучше просто сотрудничать с вами».

Какие типы партнеров вы ищете и как это сделать? Является ли это партнерством с компанией типа Amazon, которая уже делает это, и поддерживает их? Это напрямую к потребителю?

[JOLLEY]Он помогает компаниям создавать собственные интеллектуальные интерфейсы. У нас есть три уровня или три API, которые мы выпускаем. Нижний уровень — это доступ к нашему основному графу знаний, который можно использовать для питания любой интеллектуальной системы. Допустим, у вас уже есть помощник, и вы просто пытаетесь дополнить его дополнительными данными. Если у вас есть продукт рекомендательного типа, Ozlo может помочь оптимизировать все, от социальных сетей до приложений, которые вы используете, когда находитесь в дороге. Любой тип интеллектуальной системы, которая может извлечь выгоду из знаний о мире, может использовать наш основной индекс.

Но, как я уже сказал, в прошлом году у нас появился собственный телефонный помощник. Причина, по которой мы это сделали, заключается в том, что нам нужно было иметь реальных пользователей в системе, нам нужно было точно знать, что мы создаем систему, которая действительно работает, и что мы ее правильно настроили. В процессе мы создали эти два слоя поверх нашего основного слоя знаний, которые дополняют его. У нас есть тот, который может распознавать и выполнять намерения — это означает понимать, что сказал пользователь, а затем выяснять, как лучше всего ответить, включая, возможно, задав уточняющий вопрос.

Кроме того, у нас есть система, которая может делать контекстно-зависимые предложения о том, что пользователь может захотеть сделать дальше. Это действительно продвинутый подход, и я думаю, что это будет очень важно для открытия систем в будущем. Никто, кроме нас, этим не занимался. Я действительно взволнован этим, но это то, на что люди должны согласиться.

Последние два уровня в основном нацелены на компании, у которых есть помощник дома, в машине или на телефоне. Но также есть много людей, строящих новые, так что мы тоже смотрим на них.

Учитывая распространенность Siri, Alexa, Cortana и различных продуктов Google, достаточно ли это большое пространство, где Ozlo или его клиенты действительно могут рассчитывать на достаточное количество кислорода, чтобы выжить?

[JOLLEY]На самом деле те компании, о которых вы говорили, по большей части являются частью нашего целевого рынка. Мы не конкурируем с Alexa, например, в домашних условиях; мы доступны для питания что-то вроде этого. Причина, по которой мы начали с индекса, заключается в том, что мы поняли, что то, что сделало индекс Google действительно интересным в веб-мире, заключалось в том, что после того, как вы его создадите, кому-то другому будет очень сложно его воспроизвести. Много раз это действительно бесполезно для них; им лучше просто сотрудничать с вами.

Если вы посмотрите на пространство прямо сейчас, у Google есть свой индекс, и у Microsoft есть свой индекс. Все остальные в космосе начинают массово осознавать, насколько важны знания. Есть масса возможностей, масса спроса на подобную систему. Прямая конкуренция — это то немногое, что вы можете получить от Google и Microsoft прямо сейчас.

Google и Microsoft, просто используя свои поисковые следы, имеют естественный способ построения индекса. Как стартапу составить график, который может конкурировать даже в другом интерфейсе с чем-то подобным?

«Очевидно, что мы не можем просканировать весь Интернет, как Google, но мы можем провести довольно значительное сканирование и извлечь довольно много информации об интересующих нас объектах».

[HANSON]Чтобы построить такой график, вам нужно что-то похожее на серверную часть поисковой системы. Мы наняли несколько опытных поисковых роботов и поисковых инженеров, и уже несколько лет сканируем API веб-приложений и мобильных приложений, чтобы собрать необработанные данные, которые используются для построения графика. Вы можете быть немного более целенаправленным, чем полный веб-индекс, и, конечно же, в наши дни проще получить необходимую инфраструктуру, чтобы собрать воедино такие данные. В пределах наших целевых областей мы проводим довольно значительное сканирование.

Теперь у нас есть некоторое преимущество, заключающееся в том, что с переходом к мобильным API и постоянными усилиями по структурированной разметке в Интернете существуют более целенаправленные способы извлечения данных сущностей, чем это могло быть 10 лет назад. Но по-прежнему нужно много анализировать текст и просто разбирать контент, чтобы выяснить, какие атрибуты важны и каковы отношения между вещами.

Получив необработанные данные, мы отправляем их в большой конвейер анализа контента. Скорее похоже на поисковые компании в Интернете, но отличается тем, что мы стремимся к этому списку утверждений. Мы не обязательно извлекаем ключевые слова и оцениваем ключевые слова, мы на самом деле делаем что-то больше похожее на извлечение информации и то, что называется проблемой разрешения сущности. Мы пытаемся выяснить: «О чем эта страница?» — О чем эта запись? «О чем эта запись в базе данных?» — Это то, о чем мы знаем? Хорошо, свяжите это — что это может сказать об этой сущности.

Нижняя часть нашего индекса — это не ключевое слово, а сущность — человек, место, вещь. В основном то, о чем в мире говорят. Затем вы связываете все эти утверждения с этой сущностью.

В отличие от веб-индексации, где цель состоит в том, чтобы найти каждое вхождение каждого слова на каждой странице, нас на самом деле больше интересует поиск мест, где есть ценные утверждения, сделанные о объектах, которые нам интересны. Это означает, что мы можем позволить себе быть немного разборчивыми, пока мы находимся на этапе запуска. Очевидно, что мы не можем просканировать весь Интернет, как Google, но мы можем провести довольно значительное сканирование и извлечь довольно много информации об интересующих нас объектах.

«Мы определенно являемся компанией, занимающейся искусственным интеллектом, и я думаю, что мы являемся компанией, занимающейся искусственным интеллектом, в очень традиционном смысле, поскольку мы сосредоточены на том, чтобы понимать и рассуждать о мире».

Итак, какие типы объектов вас интересуют?

[JOLLEY]Мы действительно сфокусировали наши домены на основе сред наших помощников. В прошлом году мы включили помощника, который в основном использовался на телефоне, поэтому мы сосредоточились на местоположении и локальном поиске, так что это часть нашего индекса. Прямо сейчас у нас в индексе около 2 миллиардов утверждений, включая все места в Соединенных Штатах — много знаний об этих местах.

Частью этого объявления, которое совпадает с доступностью платформы, является наше крупнейшее расширение в новые домены, в том числе домены, которые интересны в домашних условиях. У нас есть рецепты, основанные на действительно обширных знаниях о еде, которые у нас есть с прошлого года. Таким образом, вы можете запросить рецепты с различными диетическими ограничениями и тому подобное.

И потом, много СМИ. Итак, фильмы и телепередачи, в том числе одна из вещей, которые меня больше всего волнуют — «Где я могу транслировать это?» Вы можете просто спросить: «Где я могу транслировать это конкретное шоу?» и узнайте, к какой вещи вы можете получить доступ.

Мы добавляем все это, а затем немного общих знаний в предметной области. Мы интегрировались с Википедией и рядом других источников, чтобы вы могли начать отвечать на более общие вопросы. … Мы будем расширять это в течение года, чтобы включить в него такие вещи, как спорт, музыка и покупки.

Сейчас происходит много «промывки ИИ». Считаете ли вы Ozlo компанией, занимающейся искусственным интеллектом?

[JOLLEY]Мы определенно являемся компанией, занимающейся искусственным интеллектом, и я думаю, что мы занимаемся искусственным интеллектом в самом традиционном смысле, поскольку мы сосредоточены на том, чтобы понимать мир и рассуждать о нем. Когда мы впервые запустили, у нас был долгий разговор о том, как сфокусировать это. Я думаю, что важно то, что есть различие, которое нам сейчас не ясно, а также происходит много обеления. В наши дни все являются ИИ.

Когда дело доходит до настоящих компаний, занимающихся искусственным интеллектом, есть два типа. Есть исследовательские компании — это компании типа DeepMind — которые сосредоточены на попытках доказать какой-то прорыв в области машинного обучения, нейронных сетей или чего-то в этом роде. А еще есть компании, занимающиеся прикладным ИИ, которые в основном сосредоточены на использовании этих технологий и применении их для решения реальных практических задач. Вот тут мы точно подходим.

Мы используем действительно широкий спектр технологий искусственного интеллекта для различных систем машинного обучения. У нас есть системы, основанные на правилах; действительно сложная система управления диалектами; конвейер понимания естественного языка; система извлечения знаний для получения утверждений об отзывах и других неструктурированных данных. Мы определенно являемся компанией, занимающейся искусственным интеллектом, но мы очень сосредоточены на том, чтобы применять его таким образом, который важен для людей в реальном мире, и меньше сосредоточены на попытках сделать следующий большой прорыв в повторяющемся обучении или что-то в этом роде.



Насколько внимательно вы должны следить за исследовательскими компаниями и тем, что они делают? Пытаетесь ли вы выяснить, сколько времени пройдет, прежде чем то, над чем они работают, станет коммерчески жизнеспособным и пригодным для использования?

[HANSON]Конечно, мы внимательно следим за этим. Мы испытываем что-то экспериментально в лаборатории, чтобы увидеть, превосходит ли оно по эффективности то, что создано с использованием, возможно, более проверенных методов. Это то, что вы обычно делаете с ИИ. Вы пробуете разные модели и выбираете ту, которая побеждает.

Мы, безусловно, с большим интересом наблюдаем за некоторыми разработками в области обработки естественного языка. У нас есть отличная команда по обработке естественного языка, которая в курсе всех последних разработок. Для нас это в основном касается понимания запросов и извлечения утверждений из текста. Вот почему мы заботимся. Мы не заинтересованы в машинном переводе или подобных вещах как таковых, но мы заинтересованы в извлечении из текста глубокого смысла. Это тот случай, когда рекуррентные модели обучения еще не превзошли традиционные модели, но это место, где проводится много интересных исследований.

В нашем базовом графе у нас нет классической проблемы с тензорной сетью. Мы не то чтобы пытаемся сопоставить миллиарды точек данных с миллиардами наблюдений, поэтому мы не занимаемся такими вещами, как компьютерное зрение или распознавание речи, где эти проблемы действительно решены. У нас есть проблемы, которые больше похожи на структурированное обучение, где велась заманчивая исследовательская работа по применению рекуррентных обучающих сетей, но я не могу сказать, что произошел прорыв.



Эндрю Нг и Baidu как компания заявили: «Эй, голосовой интерфейс в умном доме, вероятно, не лучшая идея. Иногда нужен и визуальный интерфейс». Что вы думаете о дизайне для разных интерфейсов?

Мы полностью согласны, на 200 процентов, что будущее за мультимодальными интерфейсами, которые будут представлять собой смесь голосового и визуального — и, возможно, сенсорного — взаимодействия. И это на самом деле является веской причиной, почему вы должны построить систему, которая способна рассуждать о том, чего человек хочет достичь. Вам нужно будет создать что-то, что сможет понять значение любого ввода, который дал вам пользователь — будь то текст, голос, прикосновение, набор текста или что-то еще — и смешать это с общим пониманием состояния пользователя. А затем примите решение о наилучшем способе реагирования, используя все различные методы, доступные в вашей среде.

На самом деле наша система может это сделать. У нас есть кое-что, что мы построили в лаборатории, и я думаю, что это ясно указывает на то, что это будущее. Я думаю, что Baidu на 100 процентов прав с этим. Мы твердо в это верим. Это просто еще больше подчеркнет, почему знания являются ключевыми, потому что вы не можете сделать это без глубокого понимания того, чего пытается достичь пользователь.