Если бы не логотип Baidu, исследовательская лаборатория ИИ одной из крупнейших технологических компаний Китая была бы почти спрятана внутри одноэтажного здания песочного цвета в Саннивейле, штат Калифорния. Внутри лаборатории есть знакомые отделки технологической компании Кремниевой долины: закусочная, стоячие столы, конференц-залы с грандиозными названиями, такими как «Великая стена».

«Причина существования Лаборатории искусственного интеллекта в Силиконовой долине заключается в том, чтобы попытаться [...] найти технологию, которая могла бы вывести продукт на уровень, при котором вы доверяете распознаванию речи так же, как доверяете тому, чтобы человек понял вас», — Адам Коутс, директор Лаборатория искусственного интеллекта Baidu в Силиконовой долине, сообщает Tech in Asia. «Наша главная цель — решить проблему распознавания речи».

Индустрия искусственного интеллекта может решить или разрушить будущее технологических компаний по всему миру.

Baidu хочет создать механизм распознавания речи, точность которого составляет 99 процентов. По мнению Эндрю Нг, главного научного сотрудника Baidu и основателя проекта глубокого обучения Google Brain, этот порог коренным образом изменит то, как люди взаимодействуют с компьютерами.

«В ближайшие пару лет мы хотим получить программное решение, которое действительно сможет решить эту проблему», — говорит Адам.

Индустрия искусственного интеллекта, которая, по оценкам, к 2022 году будет стоить 16 миллиардов долларов США, которая включает в себя распознавание изображений и автономное вождение, может создать или разрушить будущее технологических компаний по всему миру. Технологические гиганты США, такие как Google и Amazon, активно инвестируют в собственные инициативы в области искусственного интеллекта. Alexa, виртуальный помощник Amazon и конкурент Siri, поддерживает Echo, его домашний помощник; ИИ Google удивительно искусен в Pictionary.

См.: Половина работы, которую делают люди, можно автоматизировать: McKinsey

Приобретение стартапов в области искусственного интеллекта также является растущей тенденцией среди крупных технологических компаний, которые стремятся расширить свои возможности в области искусственного интеллекта. В 2014 году Google купила DeepMind, стартап AI, стоящий за AlphaGo, более чем за 500 миллионов долларов США. В январе Microsoft приобрела Maluuba, канадский стартап, занимающийся обработкой естественного языка и общим искусственным интеллектом.

Baidu, открывшая свою лабораторию искусственного интеллекта в Силиконовой долине в 2014 году, надеется занять место лидера в области распознавания речи. Пока что он делает впечатляющие успехи. Последний механизм распознавания речи компании, получивший название Deep Speech 2, использует глубокое обучение для распознавания слов, произнесенных на английском и китайском языках, иногда превосходя людей в последнем, по словам Baidu.

«Мы можем обучить эту гигантскую нейронную сеть, которая со временем научится распознавать речь сама по себе так же хорошо, как человек, и не тратить так много времени на размышления о том, как устроены слова», — говорит Адам. «Вместо этого [мы] можем просто попросить компьютерную систему изучить эти вещи самостоятельно».

Измельчение данных

Короткий ответ на план Baidu по завоеванию распознавания речи — это данные, и их много. Адам говорит, что Deep Speech 2 обучался на десятках тысяч часов аудиозаписей. Часть из них поступает из общедоступных данных, а другая часть — из краудсорсинговых сервисов, таких как Mechanical Turk, рынок Amazon для случайных вакансий, требующих человеческого интеллекта.

Движок распознавания речи Baidu был обучен десяткам тысяч часов аудиозаписей.

«Оказывается, даже просто то, что люди читают вам что-то, очень ценно», — объясняет Адам. По его словам, это может ввести акценты, распространенные неправильные произношения или слова с необычным написанием в механизм распознавания речи Baidu.

Deep Speech 2 — это пример обучения с учителем, типа машинного обучения, в котором используются помеченные обучающие данные, такие как расшифрованный звук, для обучения системы новым навыкам, таким как распознавание рукописных чисел. Однако без размеченных обучающих данных нейронная сеть не сможет отличить правильное от неправильного.

«Получение этих ярлыков — одна из больших статей расходов и больших проблем, связанных с тем, чтобы заставить работать такие вещи, как [Deep Speech 2]», — говорит Адам. «Это недешево».

Эти помеченные аудиозаписи передаются непосредственно в нейронную сеть Deep Speech 2 методом, известным как «сквозное обучение». В отличие от более традиционных методов машинного обучения, которые разбивают аудиоданные на дискретные единицы звука — фонемы — для построения правильных моделей, нейронная сеть Deep Speech 2 не зависит от языка. Ему не нужно ничего знать о самом языке, чтобы придумать правильный алгоритм распознавания речи — ему просто нужно достаточное количество данных.

«По мере того, как вы давали нам больше данных — все больше и больше звука — мой алгоритм машинного обучения становился все лучше и лучше на какое-то время, а затем [...] просто упирался в стену», — говорит Адам, описывая более раннюю версию Deep Speech. , в котором не использовалось сквозное обучение.

В то время, чтобы повысить точность, Baidu пришлось нанять лингвистов, чтобы помочь настроить алгоритм машинного обучения. Напротив, последняя версия распознавания речи Baidu использует один и тот же алгоритм как для китайского, так и для английского языка.

«Что действительно удивительно в глубоком обучении, так это то, что […] если вы даете команде больше данных и более крупный компьютер для их обработки, похоже, что глубокое обучение не преодолевает тот же барьер», — говорит он.

Больше с меньшими затратами

Однако требование тысяч часов данных для создания системы глубокого обучения нереально для всех приложений, особенно для тех, у которых небольшая пользовательская база. Например, найти достаточно аудиоданных для тайского или регионального диалекта в Китае значительно сложнее, чем для английского.

«Если вы запустите приложение на новом языке, вам не захочется собирать 100 000 часов [аудио] или что-то безумное», — говорит Адам. «Вы хотели бы иметь модели, которые могли бы стать очень эффективными с небольшим объемом данных, если это возможно».

У Deep Speech 2 есть и другие недостатки, связанные с его зависимостью от больших объемов данных. Несмотря на то, что с увеличением количества данных он становится все более точным, он все же может спотыкаться о такие редкие, но важные слова, как Чайковский. Добавление этих выбросов в механизм распознавания речи Baidu может потребовать экстраординарного и дорогостоящего объема данных.

«Мы считаем, что объем данных, которые могут нам понадобиться для обработки всего этого, скажем, имен собственных в мире, может оказаться слишком нерентабельным», — говорит Адам. Выяснение более эффективных моделей распознавания речи будет главным приоритетом в этом году и будущих версиях Deep Speech.

Конечно, в конце концов, исследования в лаборатории искусственного интеллекта Силиконовой долины связаны с бизнесом Baidu. Механизм распознавания речи компании уже используется в нескольких приложениях Baidu, таких как Duer, его аналог Siri, а также в Melody, чат-боте, который помогает врачам давать рекомендации и варианты лечения.

Baidu также разработала собственную диалоговую платформу искусственного интеллекта под названием DuerOS, которая используется партнерами по аппаратному обеспечению для распознавания речи и обработки естественного языка. Китайская компания по производству оборудования AiNemo, например, использует DuerOS для своего Эхо-подобного домашнего помощника или Маленькой рыбки.

Тем не менее, лаборатория искусственного интеллекта Силиконовой долины несколько изолирована от коммерческой стороны Baidu. Через океан, к югу от Стэнфордского университета, Адам и его команда могут сосредоточить свое внимание на более фундаментальных исследованиях, а не на работе, которая страдает от сжатых сроков выпуска продукции. С другой стороны, пекинская команда Baidu по искусственному интеллекту более тесно связана с пользователями и бизнес-подразделениями компании, отвечающими за такие продукты, как Duer и DuerOS.

«Поскольку мы далеки от продуктов, [...] это дает нам свободу немного подумать о том, как сократить разрыв с людьми, что является гораздо большим скачком», — говорит Адам.

Первоначально опубликовано на Tech in Asia в феврале 2017 г.