Разговорный ИИ - но где же я?

Я помню, как впервые увидел компьютер, это был Power Macintosh 5260 (с островом обезьян). Мне было около 5 лет, и я смотрел на него так, как будто он принадлежал другой вселенной. Это произошло, мне не разрешили приблизиться к нему в радиусе 5 миль; это был мой старший брат! Это меня не остановило. Я просматривал его часами. Возможности компьютеров были безграничны и подпитывались вдохновением научно-фантастических миров мечтой о говорящих машинах, машинах, которые могут помогать людям, думать о себе и даже испытывать чувства, никогда не прекращаемые. > Я все мечтал о возможностях будущего.

Перенесемся на 20 лет вперед. Мы увидели большие технологические скачки: мощные кремниевые чипы, рост Интернета и, конечно же, конец долгой зимы искусственного интеллекта с наступлением эры больших данных и глубокого обучения. Недостижимое будущее, которое было за гранью понимания, начинает воплощаться в реальность: летающие такси, Терминаторы, Интеллектуальные агенты, и это всего лишь несколько вещей, которые казались недостижимыми. Однако машин, которые могут говорить, рассуждать и думать самостоятельно и которые являются основной частью любого будущего, невозможно увидеть. Такое положение дел и мои мечты с юных лет меня толкали. Два года назад я отправился в самое смелое приключение. Я присоединился к путешествию, чтобы помочь сформировать будущее и построить настоящий ИИ для общения - путь, по которому я иду не один, - благодаря моей команде в Wluper.

В наши дни разговорный ИИ - это громкое слово. Сирис и Алексас среди нас растут. На выставке CES 2019 в Лас-Вегасе доминировал голос. Но пока они становятся повсеместными и используются во все большем количестве устройств, мы спрашиваем себя: где же интеллект? Алекса, пожалуйста, спусти мой туалет?, Правда ?? Глубокое обучение - это волшебный секрет многих из этих невероятных достижений. Нет никаких сомнений в том, что достижения в области глубокого обучения были феноменальными, они выдвинули диалоговый ИИ и НЛП на новый рубеж, и все же я согласен с такими критиками, как Гэри Маркус, которые «скептически относятся к глубокому обучению. обучение". Но я здесь не для того, чтобы критиковать глубокое обучение, я здесь, чтобы заявить о себе и призвать людей быть критичными, задавать сложные вопросы и не довольствоваться посредственным будущее должно быть грандиозным!

Полный по Тьюрингу или «Исчерпывающий по Тьюрингу»

Интеллект, в общем, сложно определить, он может означать так много вещей, в нем так много уровней понимания и обсуждения. Я не стану с этого начинать. Однако хорошей отправной точкой для изучения естественного языка является полнота Тьюринга, способность понимать и выполнять любой оператор (программу). Мы, люди, возможно, являемся полными по Тьюрингу, в некотором роде, за исключением конечной памяти и времени, а также случайной (а иногда и глупой) функции перехода. В целом это означает, что мы можем выражать друг другу любые логические выражения и способны их понимать и выполнять. Так мы можем описать окружающий нас мир. Вот как мы можем спорить о Брексите, гавайской пицце и EMACS vs VIM (неразрешимо?), Хотя я бы назвал некоторых неназванных людей ошибкой Тьюринга, мягко говоря!

Теперь у Microsoft, Google, Amazon, Apple есть миллиарды (МИЛЛИАРДЫ!) Устройств, или, как они их называют, IPDA (интеллектуальные персональные цифровые помощники). Разумный? Почему никто не говорит о полноте по Тьюрингу в диалоговых системах и тем более в IPDA? Даже Майнкрафт завершен по Тьюрингу. Эй, но подождите, у вас может быть цикл while с Google Home, Siri и Alexa.

Позвольте мне представить «полноту Тьюринга», неологизм, в котором сегодняшний интеллект достигается за счет прикрытия всех возможных событий с помощью специального правила или действия. Мы все это видели: намерения и действия! Их предоставляют не только Alexa и Google, но и многие другие пионеры и игроки в качестве основного строительного блока голосовых помощников. Идея, как мы ее видим, должна быть следующей: описывать каждую перестановку возможностей с помощью отдельного действия, каждое возможное человеческое взаимодействие с автономным правилом для достижения истинного интеллекта! Ясно, что «полнота по Тьюрингу» никогда не приведет к полноте по Тьюрингу!

Я лучше вас (в среднем) - или что означает SOTA

Но как насчет машинного обучения ?! Да, машинное обучение! Машинное обучение и глубокое обучение заботятся о правилах написания. Они превосходят подходы, основанные на правилах и доминирующие в отрасли. Ура! Но подождите, давайте еще раз посмотрим, что означает «современное состояние» (SOTA).

Эти модели оцениваются по таким параметрам, как оценка F1, точное соответствие, точность. SOTA созданы, опережая всех и вся - по среднему баллу. В среднем?! Не баллы по каждому варианту использования. Но интересуются ли мы, люди, средними значениями за бесконечные временные горизонты? Я так не думаю. Не имеет значения, зависает ли ваша система в каком-либо сценарии использования или ваш Google Home вызывает полицию, и вы не можете ее остановить, если вы настроили новый SOTA.

Итак, в чем именно проблема? Что мы, люди, делаем по-другому? Во-первых, мы можем легко справиться с двусмысленностью. Язык по своей сути неоднозначен. Подумайте только о Mac. Я имею в виду Apple Mac? А может косметическая компания MAC? Или я действительно голоден и думаю о Mac’n’Cheese? В настоящее время лучшие решения пытаются решить эту проблему с помощью порогов уверенности или черных ящиков. С другой стороны, у людей есть интерактивные диалоги: мы задаем уточняющие вопросы и стремимся к истинному пониманию, сами по себе SOTA не помогут. Необходим фундаментальный сдвиг в понимании естественного языка, чтобы приблизить нас к интеллекту - поверхностные результаты только вызовут гнев Йоава Голдберга.

Больше данных, дайте мне больше данных - или как все делают поверхностное понимание

Данные важны для машинного обучения, никто не получит их по-другому, но сами по себе данные не решат наших проблем. Можно иметь все данные мира, и ничего хорошего из этого не выйдет, особенно если нужны аннотированные данные. Проблема в том, что понимание естественного языка, отслеживание состояния диалога и т. Д. Осуществляется поверхностно с помощью наших любимых моделей глубокого обучения. Модели выполняют восприятие аналогично моделям машинного зрения, которые распознают яблоко на картинке, но не имеют представления о том, что яблоко на самом деле . То же самое происходит в НЛП: современные модели просто воспринимают, что место, человек, действие были произнесены в предложении, а затем система реагирует, но она не «понимает» или «знает», что происходит.

Больше данных, более глубокие модели и настройка гиперпараметров (например, случайное начальное число) обычно являются инструментами практиков НЛП (если не хитрыми правилами). А иногда бывает и скачок, как, например, модель Google BERT. Но, по сути, это все еще восприятие. Понимание того, что кто-то еще может успеть на автобус, не происходит через поверхностное восприятие слова поймать или автобус - скорее, необходимо понимание, модель мира и пользователя. Конечно, пользователь не имеет в виду сесть на автобус, как это сделал бы супермен. Больше данных - не решение.

Даже при наилучшем сборе данных, при использовании самых продвинутых моделей глубокого обучения, все, что происходит, является простым восприятием. Определение того, что такое понимание и значение, не является частью этого сообщения в блоге, поскольку я считаю, что необходимо проявлять должное уважение к философам, которые веками посвятили свое время этой проблеме. Вместо этого я просто ограничусь тем, что скажу, что я не появится при построении более крупных моделей, обученных на большем количестве данных. Я не могу согласиться больше, чем с цитатой Кевина Гимпеля из сообщения Себастьяна Рудера:

«Я думаю, что самые большие открытые проблемы связаны с пониманием естественного языка. […] мы должны разработать системы, которые читают и понимают текст так, как это делает человек,

путем формирования представления мира текста с агентами, объектами, настройками и отношениями, целями, желаниями и убеждениями агентов и всем остальным, что люди создают для понимания фрагмента текста.

Пока мы не сможем этого сделать, весь наш прогресс будет заключаться в улучшении способности наших систем выполнять сопоставление с образцом ».

- Кевин Гимпель

Увертюра

Машинному мышлению нужны ответы на самые сложные вопросы, нужны смелые (или сумасшедшие) люди. Мы неудачники, мы только начинаем и здесь, чтобы решать эти сложные проблемы. Полнота по Тьюрингу, поверхностное понимание и модели, жаждущие данных - наши враги. Мы в Wluper критически относимся к существующим и собственным подходам. Мы верим в работу над фундаментальными проблемами для достижения настоящего разговорного ИИ - не так ли?

Николай

PS: Ищите больше, особенно некоторые ответы ;-)

Если вам понравилась эта статья и вы хотите поддержать Wluper, поделитесь ею!

Подпишитесь на меня @ ai-nikolai и нас в Twitter @ wluper _

Если вы хотите работать над Разговорным ИИ, посетите нашу страницу вакансий.

Разговорный ИИ - но где же я?

Полный по Тьюрингу или «Исчерпывающий по Тьюрингу»

Я лучше вас (в среднем) - или что означает SOTA

Больше данных, дайте мне больше данных - или как все делают поверхностное понимание

Увертюра

Вопросы по теме