Публикации по теме speech-recognition

Публикации по теме 'speech-recognition'

Наши главные выводы из INTERSPEECH 2022 в Южной Корее… включая еду!

Исследователи из команды Kensho Scribe недавно вернулись с конференции INTERSPEECH этого года, проходившей в Songdo ConvensiA в Инчхоне, Южная Корея, с 18 по 22 сентября 2022 года. обзорные доклады, двенадцать отраслевых сессий и более 1100 презентаций принятых рецензируемых статей. Наш набор данных SPGISpeech , выпущенный в прошлом году, также получил пару упоминаний. Мы рады поделиться некоторыми из наших выводов с конференции, а также показать некоторые из наших фотографий с осмотра..

Как закончить автоматическую систему распознавания речи с Wav2vec 2.0

Авторы Zilun Peng , Akshay Budhkar , Jumana Nassour , Ilana Tuil и Jason Levy Благодаря достижениям в области распознавания речи компании теперь могут создавать целый ряд продуктов с функциями точной транскрипции. Платформы Разговорный интеллект , личные помощники и инструменты для редактирования видео и аудио, например, все полагаются на транскрипцию речи в текст. Однако вам часто нужно обучать эти системы для каждого домена, который вы хотите транскрибировать, используя..

Приложения машинного обучения в искусственном интеллекте

Машинное обучение и искусственный интеллект — две самые горячие и актуальные темы в индустрии информационных технологий с недавнего времени. Машинное обучение и искусственный интеллект применяются во многих повседневных делах, и наша жизнь будет настолько переплетена с этими технологиями, что мы не сможем функционировать без них. Если вы новичок в терминах машинного обучения (ML) и искусственного интеллекта (AI), вам не о чем беспокоиться. Давайте рассмотрим технические термины и..

Углубление в классификацию речевых акцентов: тематическое исследование

Бинарная классификация для Архива речевых акцентов по модели facebook/wav2vec2-base-960h В этой статье я описываю процесс создания простого классификатора акцента речи. Он основан на этой записной книжке Kaggle с небольшими изменениями, такими как использование обновленной модели facebook/wav2vec2-base-960h , предварительно обученной и …

Чистая транскрипция аудио

Мы очень рады сообщить, что сегодня мы запускаем API POST/dictation , наше решение для расшифровки аудиофайла или потока. Для пользователей, знакомых с нашей конечной точкой POST /speech , этот API похож на то, что он предоставляет расшифровку аудио, но не извлекает никаких намерений, сущностей или признаков. Этот новый API поддерживает до 5 минут аудио, что позволяет транскрибировать живое аудио с несколькими предложениями. Чтобы уменьшить задержку, этот API идеально подходит для..

Набор данных русской открытой речи в текст (STT / ASR)

4000 часов данных STT на русском языке Если вы не платите цену за утюг, значит, кто-то заплатил за вас. Так работает во всех сферах жизни Сообщение на spark-in.me 1 мая 2019 г. TL; DR Это сопроводительный пост к нашему выпуску набора данных Открытая речь в текст на русском языке (STT / ASR) . Это должно быть немного беззаботно и насмешливо. Все мнения мои, наверное, мнения моих коллег расходятся. Это нетехническое резюме. Не относитесь к этому слишком серьезно,..

Работа по созданию отличного продукта машинного обучения

Что действительно необходимо для создания продукта машинного обучения? Выявление проблемы При создании любого продукта, независимо от того, включает он машинное обучение или нет, первым шагом является определение проблемы, которую вы пытаетесь решить. ML — отличный инструмент для решения некоторых задач, но есть много случаев, когда лучше начать с более простого. В этом посте давайте рассмотрим работу в компании, создающей гипотетический продукт для автоматической расшифровки..