Благодаря Google, Apple и Microsoft у нас есть компьютерная программа, которая работает как наш умный персональный помощник и навигатор по знаниям!

Да, я говорю о «Google Now», «Siri» и «Cortana». Все три из них имеют очень общий и базовый функционал - они преобразуют речь в текст.

Google: Благодаря большим данным, которые делают всю информацию доступной, и очень быстрым сервером для распознавания голоса для каждого запроса. Еще одно преимущество использования больших данных состоит в том, что они сокращают количество ошибок. В бэкэнде он имеет рекуррентную нейронную сеть с долгосрочной краткосрочной памятью (LSTM RNN) и основан на гауссовой модели смеси (GMM).

Apple: Siri работает на Apache Mesos. Mesos - это ядро ​​распределенной системы, построенное по тому же принципу, что и ядро ​​Linux, только на другом уровне абстракции. Для получения дополнительной информации об Apache Mesos см. Это - http://mesos.apache.org/. Siri - это скорее приложение на стороне сервера, что дает ему преимущество в обучении на стороне сервера. Настраиваемый планировщик Mesos от Apple называется J.A.R.V.I.S. (Просто довольно умный планировщик). Apple использует J.A.R.V.I.S. как его внутренний PaaS.

Microsoft: у Кортаны есть блокнот, как у настоящего помощника. Это очень похоже на карточки Google Now. Мы можем улучшить записную книжку вручную, добавив информацию / привычки / интересы / напоминания и другие важные данные. Кортана может запускать действия на основе событий. Contana работает на Bing. Кортана демонстрирует старую тактику компании - быть быстрым последователем, а не новатором.

Sirius: цифровой помощник с открытым исходным кодом, разработанный лабораторией прозрачности в Мичиганском университете. Это похоже на то, что Linux для Windows. Использует распознавание речи и изображений.

HTK: Набор инструментов для скрытых марковских моделей (HTK) - это портативный набор инструментов для создания и управления скрытыми марковскими моделями. HTK в основном используется для исследований в области распознавания речи, хотя он использовался для множества других приложений, включая исследования в области синтеза речи, распознавания символов и секвенирования ДНК. HTK используется на сотнях сайтов по всему миру.

Калди: Это набор инструментов с открытым исходным кодом для распознавания речи. Он гибкий, имеет четко структурированный код и лучшую поддержку WFST и математики. Это зависит от двух внешних библиотек OpenFst и BLAS / LAPACK. В настоящее время я работаю над Kaldi для разработки системы преобразования речи в текст.

Обычно мы сравниваем эти компьютерные программы на основе того, насколько точные или правильные результаты они могут предсказать. С технической точки зрения это известно как коэффициент ошибок в словах (WER).

WER сравнение:

  1. HTK - 14,5%
  2. Google Now - 8%
  3. Kaldi - 6,83% (для онлайн-декодера)
  4. Siri - 5%

Если говорить о некоторых других программах в гонке, то лидерами являются Dragon Naturally Speaking и Speechlogger. Вот сравнение:

Надеюсь, гонка на улучшение между этими компьютерными программами откроет новую эру искусственного интеллекта, и это делает искусственный интеллект темой года! Для получения дополнительной информации см. Http://techcrunch.com/2015/12/25/investing-in-artificial-intelligence/.