В этом выпуске нашим гостем является Андрей Петряну Технический директор, Машинное обучение, Исследовательский инженер и преподаватель Политехнического университета Бухареста. Мы поговорим о его последнем проекте — голосовом виртуальном помощнике на не очень распространенном румынском языке.

Михай:Здравствуйте и добро пожаловать в новый выпуск подкаста Cegeka; Я Михай Попа. У нас есть короткие дискуссии с людьми, связанными с миром ИТ, на технологические темы.

Сегодня у нас в гостях Анди Петряну, технический руководитель группы искусственного интеллекта Cegeka Romania и лектор Политехнического университета Бухареста по темам искусственного интеллекта и машинного обучения.

Мы будем говорить о его последнем проекте, голосовом виртуальном помощнике на не очень распространенном румынском языке, который может значительно сэкономить на расходах на колл-центр, но также может развиваться до гораздо большего.

Итак, Энди, добро пожаловать.

Энди: Привет и спасибо, спасибо, что пригласили меня.

Михай: Итак, не могли бы вы рассказать нам о характере этого проекта? Только о чем это?

Энди. Мы стараемся идти в ногу с последними тенденциями в области машинного обучения, и у нас это отлично получается. В компьютерном зрении я бы сказал, что мы получили много результатов во многих проектах. Но прошлый год, а точнее 2018, 2019, был удивительным годом для обработки естественного языка, понимания естественного языка, а также технологий и архитектур, развивающих этот вид технологии машинного обучения.

Мы наткнулись на первого клиента, который хотел сделать что-то лучше, чем у него уже было, с помощью в основном классических чат-ботов или систем чат-ботов, существовавших ранее.

И мы шли в это с головой, у нас не было никаких ожиданий. Мы не знали, что обнаружим, а обнаружили огромное количество новых технологий, появляющихся на этой стороне понимания естественного языка, с множеством заголовков и множеством улучшений от таких компаний, как Google, Open AI или даже Энвидиа и Фейсбук.

Таким образом, в основном мы удовлетворяем потребность рынка в более дешевом обслуживании клиентов, более дешевом обслуживании клиентов, и мы хотим сделать это как можно более естественным и плавным с помощником, который может взаимодействовать с вами в разговоре и направлять вас на пути к цели. что вы ищете. Таким образом, природа проекта заключается в понимании естественного языка с помощью модели преобразователя — преобразования собственных нейронных сетей.

Михай: Я не думаю, что обязательно существует уже существующая библиотека на румынском языке, которую вы могли использовать, не так ли?

Энди: Нет, нет. И есть много языков, для которых не разработаны языковые модели — с архитектурой преобразования.

Что сделали люди из Google — поскольку они являются главным двигателем инноваций в этом секторе — они в основном создали новую архитектуру, новые исследования и обучали модели только английскому и китайскому языкам. Это самые важные рынки.

Итак, для остального мира нам как бы пришлось наверстать упущенное и попытаться сделать это самостоятельно, используя подсказки и идеи, которые они нам дали. Для любого другого языка вы должны сделать это самостоятельно. Вы должны знать, что делаете, и реализовывать эту модель трансформера.

Нам было довольно трудно найти набор данных. Он должен иметь очень полный, очень большой набор текстов для обучения. И мы использовали румынскую Википедию и еще пару источников; но румынская Википедия намного меньше, чем, например, английская Википедия.

Михай: Вам нужно обучить своего помощника, прежде чем он сможет понимать и воспроизводить, генерировать речь?

Энди: Да. Так что здесь они также представляют собой пару слоев абстракции.

Во-первых, вам нужно обучить языковую модель. Это означает, что ваша сеть будет понимать контекст вашего языка и контекст слов в предложении, например.

И затем вы собираетесь настроить эту сеть, чтобы понять конкретную вертикаль клиента или клиента; например, вы хотите заниматься телекоммуникациями, вы хотите заниматься банковским делом, вы хотите путешествовать, вам придется точно настроить эти конкретные вертикали с их контентом.

И когда вы хотите перейти от понимания текста и текстовых ответов к речи, вы упомянули что-то о вокале, это совершенно другая нейронная сеть, называемая Такотрон. Сейчас мы используем Tacotron 2, и это нейронная сеть, которая вводит текст и выводит.

Михай: Хорошо, я вернусь ненадолго. Как ты вообще до этого дошел? Я имею в виду, вы просто прошлись по каждой странице Википедии и попытались разобраться в ней?

Энди:Да, мы нашли в Интернете какой-то поисковый робот, специально разработанный для Википедии, который удаляет все ненужные метаданные и обнаруживает все, что не является текстом. И мы использовали это — ну, это бесплатный ресурс, который вы можете использовать для этого. Мы использовали это, чтобы извлечь только текст из Википедии, а затем [применили его во время] обучения языковой модели. Мы только что скармливали ему случайные предложения из имеющихся у нас наборов данных.

Мы также использовали субтитры для фильмов и некоторые обзоры на некоторых страницах Reddit. Мы также использовали несколько других ресурсов. Мы нашли пару романов, вроде книжного корпуса. Мы тоже использовали его, и в какой-то момент он стал довольно большим.

Михай: Верно, насколько я знаю, есть несколько методов обучения, которые вы можете использовать, например, обучение с учителем или самообучение и т. д. Какие из них вы использовали?

Энди: Для первой задачи, которая заключается в обучении языковой модели для понимания контекста вашего высказывания, скажем, мы использовали метод самоконтроля, который состоит в случайном маскировании слов в предложении. А затем мы научили нейронную сеть предсказывать, что представляют собой случайно замаскированные слова. И это метод обучения с самоконтролем, самообучение, потому что нет никакой истины в короне, нет процесса аннотирования. Вы просто берете случайное предложение из корпуса набора данных, а затем случайным образом маскируете 15% слов, просите сеть создать недостающие слова.

Михай:Что-то вроде заполнения пробелов?

Энди:Да, в основном заполните пробелы. Например, если бы вы сказали, знаете, «Я хочу пойти в [пропущенное слово]», или, скажем, «Теория относительности была изобретена [пропущенным словом]», а затем сеть должна создать что-то, что там работает , и там будет написано «Эйнштейн». И это довольно удивительно. Дело в том, что в конце этого тренировочного процесса в сети содержится своего рода мягкая модель познания мира. Так что, если, например, я скажу что-то, связанное с Чаушеску в румынском контексте, сеть, вероятно, завершит предложение и скажет, что Чаушеску был президентом или что Чаушеску уже нет в живых, что все правда, и это довольно впечатляюще. потому что это не просто контекстуальная информация, это также хорошо осведомленная информация.

Михай: Действительно, действительно, прямо сейчас виртуальный помощник, над которым вы работали, является общим. Как вы собираетесь внедрять его для конкретной отрасли? Если у меня есть, я не знаю, обувной магазин или что-то в этом роде, как вы собираетесь сделать его актуальным для конкретной вертикали и контекста, в котором находится конкретный бизнес?

Энди:Да; так что, по сути, на данный момент, после того, как вы самоконтролировали, обучили этот тип модели, у вас будет языковая модель, которая понимает контекст вашего языка и это хлюпающее формирование вашего контекста. Но вы ничего не можете переделать с этим, кроме, как вы знаете, полного заполнения пробелов в предложениях. И это бесполезно для отраслей или бизнеса, но что вы можете сделать, так это попытаться настроить эту сеть, чтобы создавать интенсивные для пользователя или динамические сущности внутри предложений. Или вы можете выполнить анализ настроений и все типы последующих задач. И это будет работать фантастически хорошо, если предварительно обученная модель начинается с языковой модели, обученной вашему языку. Поэтому, когда к нам приходит клиент или новый клиент, чтобы внедрить для него какую-то технологию понимания естественного языка, мы запрашиваем у него данные.

Нам нужны разговорные данные, которые они используют со своими клиентами. Нам нужны электронные письма, нам нужны анонимные сообщения, чтобы они соответствовали GDPR. И затем мы аннотируем эти данные. Это уже не самоконтролируемый тренировочный процесс. Сейчас это под наблюдением, человек наблюдает за процессом. Мы аннотируем эти данные интенсивностью каждого высказывания и сущностями каждого высказывания. А затем мы попросили сеть узнать об интенсивном анализе сущностей и настроений. Итак, это совершенно другой процесс, через который мы проходим. Это как второй шаг — обучение языковой модели, чтобы стать опытным для вашей отрасли или вертикали.

Михай: Верно, логично, и, допустим, я в совершенно новой отрасли, я имею в виду сферу услуг определенной вертикали. Сколько сообщений вам нужно разобрать, проанализировать или аннотировать, чтобы иметь возможность обучить помощника в этой конкретной вертикали?

Энди: Удивительно, до чего дошли технологии. тот факт, что у вас уже есть предварительно обученная языковая модель, которая понимает ваш язык и контекст, означает, что на втором этапе вам не нужно обучать ее так долго или с таким количеством точек данных. Так, например, на прошлой неделе у нас была демонстрация для страховой компании, и они дали нам довольно простой процесс выполнения некоторых полисов по некоторым страховкам, и у нас было около 100 строк разговора. , и мы увеличили эти 100 строк разговора по-разному, и в итоге получилось около 500 строк разговора. А потом мы тренировались на этих 500 линиях, и это уже было неплохо. Таким образом, очевидно, что большее количество данных приводит к лучшему обобщению, большей точности и лучшей производительности. Но мы сделали это со 100 строками от клиента.

Михай: Это удивительно, потому что я знаю, я помню из проектов компьютерного зрения, которые у нас были, что нам нужны были тысячи и тысячи изображений, чтобы понять…

Энди:Да, но это происходит только из-за предварительной подготовки, первоначальной предварительной подготовки языковой модели, которая, вероятно, занимает около миллиарда строк разговора.

Михай: Хорошо.

Энди:Итак, так вот, вот этот объем, вам нужно предварительно обучить его на очень большом массиве данных, а затем можно выполнить точную настройку, как на меньшем, гораздо , гораздо меньший набор данных.

Михай: Понятно. Итак, у вас был определенный набор ранее существовавших технологий, на которых вы основывали этого помощника?

Энди: Итак, мы много следили за тем, что делают конкуренты. Вам нужен надежный отчет о том, что происходит, и лучшее, что есть сейчас — но не на всех языках мира — это Dialogue Flow от Google. Поэтому мне не стыдно об этом говорить. Это лучший продукт.

И мы пытаемся направить нашу реализацию, чтобы, по крайней мере, соответствовать этому продукту. Очевидно, что этот продукт, как я уже сказал, присутствует не во всех языках. И они не предлагают вам никакой поддержки конечного автомата или графической части всего продукта. То, что они предлагают, — это просто модуль понимания английского и китайского языков. Так что да, это была самая влиятельная технология, которую мы рассматривали.

Михай:Хорошо, но если Google предложит такой продукт — а у них есть точные механизмы распознавания речи и, конечно же, очень мощные механизмы генерации естественного языка — должен ли кто-нибудь предположить, что этот проект — просто интерфейс, построенный на лучший продукт Google?

Энди: Итак, этот вопрос состоит из двух или трех частей:

Итак, во-первых, сама генерация естественного языка является открытой темой исследования. И это потому, что если вы попросите нейронную сеть сгенерировать ответ на очень короткий ответ, это может иметь смысл. Он может хорошо с этим справляться, но для более длинных объяснений или для очень конкретных деталей, которые он должен предложить, он как бы отклоняется и дает контекстуально релевантный результат, но немного, возможно, выходит за рамки отрасли. Так, например, вы можете заставить его писать удивительные истории о единорогах, и он уйдет и расскажет вам удивительную историю о единороге. Но если вы хотите, чтобы он дал вам резюме о том, что такое продукт банка, вы не позволите ему уйти от вас. Вы не можете этого сделать, поэтому на данный момент вы не можете генерировать естественный язык, поэтому я думаю, что это был один из вопросов.

Другой вопрос, вероятно, заключается в том, реализуем ли мы что-то из того, что уже есть у Google, и ответ отрицательный. Всю реализацию нашего продукта мы сделали сами.

Мы запускаем нашу нейронную сеть с нашими настраиваемыми выходами, с нашей настраиваемой структурой, поэтому интеллектуальная собственность прямо сейчас принадлежит нам. И, читая документацию, которую такие компании, как Google, размещают в Интернете, мне кажется, что они не заботятся о создании языковых моделей для всех языков мира. Они заботятся о том, чтобы дать возможность другим компаниям и другим людям, таким как я, делать это для своего языка. И я думаю, что это хороший способ взглянуть на это в среде с открытым исходным кодом.

Михай:Вы видели примеры таких менее часто используемых языков, реализованных поверх продукта Google, кроме румынского?

Энди: Опять же, мы не реализуем его поверх продуктов Google, поэтому он наш собственный.

Михай:Извините, извините за плохое.

Энди:Нет проблем, это наша реализация, а не продукт Google. Это вдохновлено Google, если хотите, из исследований и кода, который они выложили; мы хотели сделать продукт не хуже их. Так что это вдохновлено этим, но это наша собственная вещь. И да, мы сделали первую модель на румынском языке, и пока мы это делали, я общался с ребятами, которые делали первую модель на немецком языке.

И это был довольно интересный разговор, который у меня был с этими парнями, потому что они столкнулись с теми же проблемами и проблемами, что и я. И поскольку технология новая, я имею в виду эти модели трансформаторов, такие как Берт, Альберт или Роберта, все эти технологии появились в 2019 году. Итак, поскольку они такие новые, вероятно, многие исследовательские центры по всему миру пытались сделать это. то же самое в то же время. Так что мне посчастливилось быть в контакте с немецкими ребятами, которые делали немецкую модель первого языка. И мы сделали первый румынский.

Михай: Верно. Итак, поскольку вы упомянули Берта, Роберта и Альберту только для тех, кто слушает и может не слишком много знать об этом, не могли бы вы просто дать нам описание?

Энди:Конечно, извините за это, поэтому подчеркивающая технология или архитектура нейронной сети называется преобразователем. И это новинка. Новичок в горячем блоке. Я не буду вдаваться в подробности того, что это значит. Любой, кто слушает этот подкаст, может найти его в сети. Но что такое Bert, так это представление двунаправленного энкодера для трансформатора. Я знаю, что там много слов, но это говорит о том, что поток информации внутри нейронной сети мозга двунаправлен. И он использует трансформатор, который имеет модели внимания. Идея этой модели внимания очень важна, и в ней был своего рода гениальный ход, который я бы никому не приписал. Я не знаю, у кого это было первым, в мире компьютерного зрения есть версии моделей внимания.

Кроме того, что такое модель внимания, так это то, что сеть не уделяет столько внимания всем словам в предложении.

Михай: Это придает вес каждому из них, верно?

Энди: Да, в основном некоторые слова в предложении оцениваются как более важные для вашего результата или результата, чем другие слова в предложении. Так, например, если вы скажете: «Я не знаю», я могу привести множество примеров на румынском языке, но не на английском прямо сейчас. Возьмем, к примеру, тот факт, что вы стоите на скамейке; ну, часть «сверху» очень важна для модели намерения, чтобы понять, что вы делаете. А еще очень важно слово «скамейка», потому что вы стоите на вершине скамьи. Так что этот тип механизма внимания был действительно интересным.

Михай: Да. А потом я думаю, что есть кое-что, с чем еще не разобрался даже Google, а именно с использованием запятых. Иногда я пишу электронные письма на своем телефоне с помощью голосового ввода в текст. И он никогда не сможет понять, когда я ставлю запятую или когда ставлю точку, не говоря уже о столбце, он никогда не сможет этого сделать.

Энди:Да, я думаю, это немного понятно, в том смысле, что когда вы, как человек, используете запятую в текстовом представлении того, что вы говорите, вы как бы хотите подчеркнуть какое-то грамматическое правило. или какая-то драматическая пауза в вашей речи. Но затем, когда вы говорите и ожидаете, что машина напишет текст за вас, драматические паузы, которые вы делаете, будут сильно отличаться, понимаете, от одного человека к другому. Таким образом, может быть довольно трудно понять ваш стиль паузы и ваш стиль акцентирования.

Михай: Вы видите решение этой проблемы в ближайшее время? Проблема с запятой?

Энди:Возможно, так и будет, я не думаю, что сейчас важно решать проблему с запятыми. Я думаю, что есть много других важных видов морщин, которые нужно немного убрать с пути.

Михай: О чем бы вы подумали?

Энди: я знаю, что сейчас ведутся исследования в направлении сквозной модели. Архитектура, которую я вам описывал, состоит примерно из трех или четырех нейронных сетей.

Есть нейронная сеть, которая преобразует речь в текст.

А затем, когда у вас есть текст, вы делаете нейронные сети, понимающие естественный язык, которые делают второй.

И затем у вас есть сформулированный вывод, текстовый вывод, и из текстового вывода вы делаете представление спектрограммы того, как этот текст должен выглядеть в форме спектрограммы. А это третья сеть.

И четвертая сеть берет представление спектральной грамматики вашего текста и воспроизводит звук, так что есть четыре сети.

И эти архитектуры работают рука об руку. Я точно знаю, что проводится множество исследований по созданию в основном единой сети ввода-вывода, которая получает и выводит звук. И для меня это фантастика, это как мозг сам по себе.

Так это делает понимание. Он выполняет фильтрацию звука. Все это делает спектрограмма. И делает это внутри одной-единственной нейронной сети.

Михай: я возвращаюсь к созданному вами виртуальному помощнику. Он также генерирует активные вопросы и активный контент, не так ли?

Энди: Да, это еще одно, знаете ли, я упоминал ранее, что генерация естественного языка является открытой темой для исследований. И одна вещь, которая происходит довольно часто, заключается в том, что вы даете помощнику намерение пользователя и сущностей. И затем вы также можете дать ему какие-то метаданные.

Например, пользователь немного расстроен, или у пользователя настойчивый тон, или он больше заинтересован в покупке этого или профиля пользователя. И если вы дадите ему также метаданные и попросите его генерировать контент, он начнет генерировать ответы, которые будут сильно различаться, если он будет говорить с вами или со мной.

Так что это будут очень персонализированные, адаптированные ответы. И я думаю, что это еще одна вещь, которая исследуется и продолжается, и это произойдет в ближайшее время.

Энди:Сейчас сеть взаимодействует с пользователем так: например, вы хотите забронировать рейс в Берлин, хотите поехать в Нью-Йорк; вам придется сказать ему: когда вы хотите уйти или откуда, когда вы хотите вернуться. Сколько пассажиров вы хотите летать бизнес? Хотите лететь эконом? Каков ваш бюджет расходов? Вы хотите, чтобы такси ждало вас в аэропорту? И все эти детали, некоторые из них обязательны, а некоторые можно установить по умолчанию. Например, по умолчанию вы собираетесь использовать эконом-класс.

Таким образом, в разговоре с сетью, которая хочет забронировать для вас рейс в Берлин, сеть или система уже знают, что ей нужно для заполнения всех этих деталей. И если кто-то, кто мало что знает о путешествиях, придет и попросит бронирование, помощник начнет задавать ему вопросы, чтобы выполнить его, или информацию, необходимую для того, чтобы доставить вас в Нью-Йорк. Я хотел спросить тебя, когда ты хочешь уйти? О, откуда ты уходишь? Сколько людей там? Вы хотите, чтобы такси ждало вас, когда вы приедете? В этом смысле он также задает вопросы и ведет диалог с вами.

Михай: Это подводит меня к паре эпизодов «Звездного пути», которые я смотрел несколько раз назад, и я помню, что всегда компьютерный голос в «Звездном пути», по крайней мере, в сериале «Следующее поколение», звучал так роботизированный. Так, например, я бы попросил рейс и сказал бы: «Я хочу вылететь между следующим вторником и следующей пятницей, компьютер, пожалуйста, дайте мне альтернативы на эти дни». И тогда компьютер в «Звездном пути» говорил: «Рейс во вторник недоступен, рейс в среду недоступен, рейс в четверг недоступен и т. д.». Как сделать так, чтобы робот не звучал слишком роботизированно и не был ближе к естественной речи?

Энди:Это один из удивительных фрагментов, который меня поразил, когда я наткнулся на него. Я привык к большому количеству чат-ботов или роботов-помощников для телекоммуникационных компаний, у которых был роботизированный голос или которые просили нажать цифру пять, чтобы перейти к определенному шаблону меню. И мне это очень надоело, и я подумал, что это не так, это плохой способ вести беседу, плохой способ поддерживать отношения с вашим клиентом.

Михай: Действительно, действительно.

Энди: Да. Итак, мы искали, как преобразовать текстовые сообщения, которые понимание естественного языка в конечном итоге будет производить в голосовые ответы. И, как я упоминал в архитектуре, есть также нейронная сеть, которая интерпретирует эти спектрограммы в звук. И что мы сделали, так это то, что нашли аудиокниги для рассказов, в основном рассказов для детей. Как популярные фольклорные истории для детей на румынском языке. И мы нашли эти истории, и там был конкретный персонаж, которого мы нашли, вы знаете, шесть-восемь часов аудио, и у нас также была текстовая стенограмма аудио. Так что это довольно много аудио, восемь часов текста и написано в рассказах, и можно сказать, что это слишком много…

Михай: …Чтобы проглотить.

Энди:Да, но на самом деле большие, большие продукты, вероятно, используют 100 часов аудио. И мы попытались обучить нашу модель или модель длины волны на этом аудио — восемь часов историй для детей. И результат впечатляет. Он говорит с той же интонацией, что и рассказчик в рассказах. У него также есть немного молдавского акцента.

Энди:Говорящий был немного молдаванином, поэтому ассистент уловил интонации и интонации голоса. И это более или менее просто копия динамика, из которого мы нашли аудиокниги, и вы можете заставить его говорить что угодно. Довольно дико думать, что с 10 часами аудио от кого-то вроде Моргана Фримена или 10 часов аудио от Трампа вы можете сделать глубокий фейк, который может сказать что угодно голосом Трампа или голосом Моргана Фримена. Но это состояние технологий прямо сейчас.

Михай:Значит, помощник прямо сейчас может использовать разные голоса, если это необходимо?

Энди:Каждый раз, когда я встречаю нового потенциального клиента, я обычно доношу до него мысль, что его голос или голос заботливого клиента очень важен для их личности и их имиджа, для их отношений, образ, который клиенты формируют в своих головах об этой компании. Я рекомендую каждой из этих компаний нанять актера. Кто-то, чей голос они считают сексуальным.

Энди:И затем они записывают около 10 часов аудио в своем конкретном контексте — может быть, путешествия, банковское дело или что-то еще. Просто заставьте этого актера говорить об этом 10 часов и дайте нам аудиозапись и расшифровку, текстовую расшифровку того, о чем он говорит. И у них будет агент с голосом этого актера.

Михай: Действительно, потому что, если я Vodafone и куплю этого агента, я не хочу, чтобы это звучало как тот же агент, нанятый Orange.

Энди:Вы хотите, чтобы у него был ваш собственный голос Vodafone, вы хотите дать ему имя. В будущем, лет через 5-10, вы будете разговаривать с кем-то в Vodafone с именем, личностью и всеми теми характеристиками, которые есть и должны быть у человека, проницательностью, сопереживанием и все такое.

Михай: Обучается ли помощник у отдельных пользователей? Предполагается, что в какой-то момент он начнет учиться у отдельных пользователей в отношении их конкретных моделей разговора или идиосинкразий, если хотите.

Энди:Это область машинного обучения, которую крупные люди в отрасли, такие как Андрей Карпати или другие подобные люди, вероятно, называют активным обучением. И что означает активное обучение, так это то, что нейросеть становится все лучше и лучше, она взаимодействует со своим пользователем, но существует ложное представление о том, что сеть, нейронная сеть или система обучается в реальном времени во время разговора с пользователем. Пользователь.

Это не так, или, по крайней мере, не сейчас. Более или менее дело в том, что если агент не понимает, что говорит пользователь, он скажет «Я не понимаю». Например, если пользователь хочет поговорить с турагентом и говорит турагенту, что хочет, чтобы он купил продукты, турагент скажет: «Я не понимаю. Не могли бы вы переформулировать или рассказать мне по-другому. Может быть, я смогу так понять». И если он это сделает, то мы сможем зафиксировать то событие, когда нейросеть не поняла, что говорит пользователь. А потом, скажем, раз в месяц или раз в неделю, в зависимости от требований клиента, мы можем переучивать модель на непонятных ей высказываниях. Итак, мы… делаем его лучше. Но это не в реальном времени. Сеть не учится, разговаривая с вами в режиме реального времени. Он учится, разговаривая со мной, инженером, раз в неделю.

Михай:Хорошо, может быть, вы могли бы переключиться на продуктового агента, если это контекст?

Энди:Да, определенно, так что я представляю множество таких узко-узких агентов знаний. У вас будет агент для ваших списков продуктов, агент для ваших поездок, агент для вашей страховки, агент для вашей телекоммуникационной компании, кто угодно. Но в какой-то момент эти агенты, вероятно, сойдутся.

Михай: Действительно.

Энди:И, вероятно, это будет какой-то метаагент, который понимает все больше и больше контекста окружающего мира. И это тот момент, когда становится немного страшно. Я ожидаю, что они будут терапевтическими агентами и, в основном, агентами, которые разговаривают с людьми, которые чувствуют себя одинокими дома.

Михай: Агент-предсказатель.

Энди: Да, да. Может быть, что, может быть, что судьба магии, у вас будут агенты для всего этого, я могу поспорить. Я могу поставить на это много денег, да.

Михай: я думал о новой технологии, выпущенной Google не так давно. Он совсем свежий и, кажется, называется Tensor Flow.JS. И мне было интересно, как это может мешать мгновенному обучению любым агентом из браузера?

Энди: Я думаю, что принципы почти такие же. JS — это просто фреймворк или платформа. Возможно, вы захотите выполнить развертывание в веб-интерфейсе JavaScript, или вы хотите развернуть его на мобильном устройстве, или вы хотите развернуть его в облаке.

Михай: Судя по всему, это делает соединение с сервером намного быстрее…

Энди:Может быть. До этого момента я не работал с развертыванием на маршруте .JS, потому что никто из моих клиентов не просил об этом. Но я не думаю, что он работает с нейронными сетями речевого типа, потому что для этого требуются довольно мощные графические процессоры. Поэтому я не думаю, что их можно сделать в локальном контейнере изображения JS на вашем мобильном телефоне.

Например, мой MacBook Pro без проблем запускает архитектуру трансформатора на процессоре. Но если я хочу поговорить с ней, если я хочу поговорить с настоящей нейронной сетью, она не выполняет обработку на своем графическом процессоре или процессоре, потому что она слишком легкая. Значит, нужно перейти в облако.

Михай: Насколько я понимаю, это означает, что для этого помощника вы использовали некоторые типы аппаратной обработки.

Энди: Да, так что большая часть, ну, если это текст, у нас есть что-то около семи миллисекунд времени ответа на ЦП. Таким образом, вы можете себе представить, что на графическом процессоре вы можете безумно масштабироваться. Но когда дело доходит до синтеза голоса и звука, это можно сделать только прямо сейчас, без задержки ответа на мощных графических процессорах в облаке.

Поэтому, даже если вы взаимодействуете с помощником Google, большую часть времени вам приходится ждать секунду, пока он не ответит.

Михай: Верно.

Энди: И я не думаю, что обработка данных обязательно или полностью выполняется на телефоне, некоторые из них, я почти уверен, выполняются в облаке.

Михай: А теперь последний вопрос: каковы следующие действия помощника? Как вы это видите, какие у вас планы?

Энди: я вижу, что в 2020 году будет много конкурентов; Я думаю, что это здорово; Я думаю, это признак того, что индустрия движется в этом направлении. Я думаю, что у Чегеки все еще есть преимущество.

Нам по-прежнему удается сделать это первыми в Румынии, и нам удалось сделать это достаточно хорошо, чтобы получить потенциальных клиентов и клиентов.

Я думаю о следующих шагах, в общем, когда речь идет о технологиях, я очень жду генерации естественного языка, автоматической генерации — не только понимания, и я с нетерпением жду снижения затрат для поставщиков услуг по обслуживанию клиентов на 70–80%.

И я обещаю, что гарантирую, что смогу это сделать, и люди сходят с ума. Они такие: я трачу миллионы долларов в год на обслуживание клиентов.

Михай: я думаю, что это делают все сервисные компании.

Энди: Да. А потом, когда я прихожу [говорю]»: «Я могу вычеркнуть 70% этих долларов только за часть этих денег», они не могут в это поверить. Они [думают] «нет, этого нельзя сделать, это слишком хорошо, чтобы быть правдой». Потому что в прошлом у них обычно был плохой опыт работы с чат-ботами, которые использовали сопоставление с образцом.

Михай: Да, мы все это знаем.

Энди: [я говорю им] «это не та же технология», и когда я демонстрирую им ее, большинство людей не верят, что это реально. Они хотят продемонстрировать это сами. А потом я позволил им поиграть с технологией. «Сделай это сам, продемонстрируй это сам», и они просто поражены скоростью ответа и двусмысленностью, с которой ему удается справиться.

Михай: Я думаю, все дело в точности, верно? Скорость и точность?

Энди: Да, скорость и точность. Но даже если вы разговариваете с женой, вы можете не до конца понять все, что она так говорит.

Михай:Это плохой пример.

Энди: Выслушай меня по этому поводу, так что даже когда у вас есть межличностное общение, вы и ваша жена или вы и ваши дети, вы не будете все время полностью понимать, чего они хотят.

Так что точность в данной ситуации не особо 100%. Вы не можете сказать, что понимаете свою жену на 100%. Никто не понимает своих супругов или своих мужей на 100%.

Поэтому я думаю, что мы должны смотреть не только на точность, но и на то, выполняет ли агент работу, для которой он предназначен, проводит ли он пользователя через процесс, который приводит пользователя к покупке билета в Париж? Направляет ли он процесс, облегчающий пользователю понимание того, почему он заплатил много денег за свой счет за телекоммуникации?

Так что, даже если он не всегда точен на 100%, если ему удается провести вас через это, я думаю, это успех.

Михай:Действительно, а также с голосовым помощником у вас есть барьер невосприятия языка тела, который, по мнению многих психологов, составляет, я не знаю, 70, 75%?

Энди: Да, в этой области тоже много шума. Компания Samsung выпустила продукт под названием Neon.

И это 2020 год, или декабрь 2019 года, или январь 2020 года. Я думаю, что мы прямо сейчас, мы 16 января. Это продукт, который появился неделю или две назад. А продукт Neon от Samsung — это цифровой помощник, но он также имеет визуальное представление, подобное телу. У него также есть лицо, жесты и все такое, но если вы посмотрите на демо, которые они сделали на CS в этом году, вы увидите, что из-за высокой сложности создания языка тела, мимики, мимики тела, всего этого : это немного тормозит.

Так что у нас все еще нет вычислительной мощности, чтобы производить эту штуку на нашем планшете или мобильном телефоне. Чтобы он работал, он должен питаться от более крупных графических процессоров.

Михай: Я видел, я видел демонстрации неона, и это было страшно.

Энди: Это довольно страшно.

Михай: Да. Я имею в виду, они просто выглядели, они выглядели в точности как настоящие люди.

Энди: Да, они выглядят вполне реальными. Я видел демо с фальшивым глубоким лицом политиков, говорящих много вещей, которые им не следовало бы говорить. Эти демонстрации сделаны парой действительно умных парней и исследователей для крупных компаний. Они хотят устроить какой-нибудь безумный бунт на своем заднем дворе. Это потрясающе. Удивительно, но мы можем делать такие вещи, и это также пугает.

Михай: Видите ли вы какое-либо применение этого помощника и отзывов, которые он получает от пользователей для анализа поведения пользователей?

Энди:Определенно; но анализ поведения пользователей также относится к действиям, которые совершают пользователи, их истории или фону. Так что есть много исследований в области профилирования вашего пользователя, понимания типа личности вашего пользователя, понимания того, когда ваш пользователь хочет продлить свой контракт, а также пожизненной ценности клиента.

Михай: На основе местоположения, эмоций и т. д.

Энди:Да, и все, что такой агент привносит в таблицу, — это анализ настроений. Таким образом, агент, подобный этому, может понять, находитесь ли вы в нервном, срочном, моменте, или вы немного забавны, расслаблены, непринужденны в отношении предмета или если вы не определились; тогда, возможно, это может изменить баланс.

Михай:Еще раз большое спасибо, Анди, и удачи в дальнейшем с этим довольно интересным проектом, который является первым на румынском рынке и для румынского языка, не только для румынского рынка; потому что у нас есть около, я не знаю, 4 миллиона [румын] человек, живущих за границей, так что это может получить некоторую поддержку и за границей. И я надеюсь, что это перерастет во что-то большее.

Энди: Большое спасибо, что пригласили меня. Это было приятно, и я уверен, что нам не нужна удача. Мы собираемся выбить его с футбольного поля.

Михай:Прекрасно, большое спасибо. Это Михай Попа из Чегеки, Румыния, выходит. Всего наилучшего.