Наши модели соответствуют моделям Google премиум-класса и очень просты в использовании.

Мы с гордостью сообщаем, что мы создали с нуля и выпустили наши высококачественные (т. Е. На уровне премиальных моделей Google) модели преобразования речи в текст для следующих языков:

  • Английский;
  • Немецкий;
  • Испанский;

Вы можете найти все наши модели в нашем репозитории вместе с примерами, тестами качества и производительности. Также мы потратили некоторое время на то, чтобы сделать наши модели максимально доступными - вы можете попробовать наши примеры, а также контрольные точки PyTorch, ONNX, TensorFlow. Вы также можете загрузить нашу модель через TorchHub.

Почему это большая сделка

Преобразование речи в текст традиционно имеет высокие входные барьеры по ряду причин:

  • Данные, которые сложно собрать;
  • Дорогостоящие аннотации и высокие требования к данным;
  • Высокие требования к вычислительным ресурсам и внедрение устаревших сложных в использовании технологий;

Вот некоторые из типичных проблем, с которыми существующие решения и подходы ASR имели до нашего выпуска:

  • STT Research обычно фокусировалась на огромных вычислительных бюджетах;
  • Предварительно обученные модели и рецепты плохо обобщались, их было трудно использовать даже в том виде, в каком они есть, они основывались на устаревших технологиях;
  • До сих пор сообществу STT не хватало простых в использовании высококачественных промышленных моделей STT;

Сначала мы попытались облегчить некоторые из этих проблем для сообщества, опубликовав самый большой русскоязычный корпус в мире (см. Наш пост на Хабре здесь). Сейчас мы пытаемся решить эти проблемы следующим образом:

  • Публикуем набор предварительно обученных качественных моделей для популярных языков;
  • Наши модели разработаны таким образом, чтобы быть устойчивыми к различным областям, как вы можете видеть в наших тестах;
  • Наши модели предварительно обучены на обширных и разнообразных наборах данных;
  • Наши модели быстрые и могут работать на обычном оборудовании;
  • Наши модели просты в использовании;

Смущающая простота

Мы считаем, что современные технологии должны быть невероятно простыми в использовании. В своей работе мы руководствуемся следующими принципами проектирования:

  • Модели должны быть компактными и быстрыми;
  • Модели должны быть универсальными для разных областей, должно быть одно общее решение, внешне адаптированное к конкретным областям, а не наоборот;
  • Модели должны быть простыми в использовании;

Дальнейшие планы

Теперь наименьший размер, который мы могли сжать для наших моделей, составляет около 50 мегабайт.
У нас все еще есть планы сжать наши модели Enterprise Edition до ~ 20 мегабайт без потери точности. Мы также планируем выпустить модель Community Edition для других популярных языков.

Ссылки

Первоначально опубликовано на https://habr.com.