Наши модели соответствуют моделям Google премиум-класса и очень просты в использовании.
Мы с гордостью сообщаем, что мы создали с нуля и выпустили наши высококачественные (т. Е. На уровне премиальных моделей Google) модели преобразования речи в текст для следующих языков:
- Английский;
- Немецкий;
- Испанский;
Вы можете найти все наши модели в нашем репозитории вместе с примерами, тестами качества и производительности. Также мы потратили некоторое время на то, чтобы сделать наши модели максимально доступными - вы можете попробовать наши примеры, а также контрольные точки PyTorch, ONNX, TensorFlow. Вы также можете загрузить нашу модель через TorchHub.
Почему это большая сделка
Преобразование речи в текст традиционно имеет высокие входные барьеры по ряду причин:
- Данные, которые сложно собрать;
- Дорогостоящие аннотации и высокие требования к данным;
- Высокие требования к вычислительным ресурсам и внедрение устаревших сложных в использовании технологий;
Вот некоторые из типичных проблем, с которыми существующие решения и подходы ASR имели до нашего выпуска:
- STT Research обычно фокусировалась на огромных вычислительных бюджетах;
- Предварительно обученные модели и рецепты плохо обобщались, их было трудно использовать даже в том виде, в каком они есть, они основывались на устаревших технологиях;
- До сих пор сообществу STT не хватало простых в использовании высококачественных промышленных моделей STT;
Сначала мы попытались облегчить некоторые из этих проблем для сообщества, опубликовав самый большой русскоязычный корпус в мире (см. Наш пост на Хабре здесь). Сейчас мы пытаемся решить эти проблемы следующим образом:
- Публикуем набор предварительно обученных качественных моделей для популярных языков;
- Наши модели разработаны таким образом, чтобы быть устойчивыми к различным областям, как вы можете видеть в наших тестах;
- Наши модели предварительно обучены на обширных и разнообразных наборах данных;
- Наши модели быстрые и могут работать на обычном оборудовании;
- Наши модели просты в использовании;
Смущающая простота
Мы считаем, что современные технологии должны быть невероятно простыми в использовании. В своей работе мы руководствуемся следующими принципами проектирования:
- Модели должны быть компактными и быстрыми;
- Модели должны быть универсальными для разных областей, должно быть одно общее решение, внешне адаптированное к конкретным областям, а не наоборот;
- Модели должны быть простыми в использовании;
Дальнейшие планы
Теперь наименьший размер, который мы могли сжать для наших моделей, составляет около 50 мегабайт.
У нас все еще есть планы сжать наши модели Enterprise Edition до ~ 20 мегабайт без потери точности. Мы также планируем выпустить модель Community Edition для других популярных языков.
Ссылки
Первоначально опубликовано на https://habr.com.