Индустрия транскрипции сильно изменилась за последние 10 лет. Академические и медицинские фирмы остаются крупнейшими клиентами транскрипции. Однако другие отрасли, такие как финансы, юриспруденция, производство и образование, также составляют значительный процент клиентской базы.
Программное обеспечение автоматического распознавания речи (ASR) сделало нашу повседневную жизнь более удобной. Например, Alexa теперь может сказать вам, какая погода будет сегодня.
Возможно, как и большинство отраслей, индустрия транскрипции пострадала от ASR. Это программное обеспечение все чаще используется различными игроками, которым требуются стенограммы. ASR — дешевое решение для транскрипции. Однако существует большая проблема с точностью расшифровок ASR.
Согласно исследованиям, в которых сравнивались показатели точности транскрипционистов-людей и программного обеспечения ASR, у транскрипционистов-людей был коэффициент ошибок около 4%, в то время как у коммерчески доступного программного обеспечения транскрипции ASR было обнаружено, что частота ошибок составляет 12%.
Короче говоря, частота ошибок ASR в три раза выше, чем у людей.
В 2017 году компания Google объявила, что ее программное обеспечение для распознавания голоса достигло коэффициента ошибок в словах (WER) примерно 4,7 %. Это действительно возможно?
Давайте разберемся, как работает ASR и каковы его последствия в нашей индустрии транскрипции и перевода.
Что такое механизм частоты ошибок в словах (WER): по определению
Частота ошибок в словах (WER) — это распространенный показатель, используемый для сравнения точности стенограмм, созданных API-интерфейсами распознавания речи.
Как рассчитать WER (механизм частоты ошибок в словах)
Вот простая формула, чтобы понять, как рассчитывается коэффициент ошибок в словах (WER):
WER= S+I+D/N
- S означает замены,
- I означает вставки,
- Dобозначает удаление,
- N — количество слов в ссылке (которые были фактически сказаны).
Что влияет на количество ошибок в словах?
Для API-интерфейсов распознавания речи, таких как IBM Watson и Google Speech, уровень ошибок в словах, равный 25 %, является средним показателем для обычного распознавания речи. Если речевые данные более технические, более «акцентированные», более специфичные для отрасли и более шумные, становится менее вероятным, что общий API распознавания речи (или люди) будут более точными.
Технический и отраслевой язык
Транскрибаторы-люди берут больше за технический и отраслевой язык, и на это есть причина. Надежное распознавание отраслевых терминов сложно и требует усилий. Из-за этого системы распознавания речи, обученные на «средних» данных, испытывают трудности с более специализированными словами.
Транскрипция ASR может быть дешевле, чем человеческие услуги транскрипции. Однако его ошибки могут дорого обойтись. Если вам нужны точные стенограммы, человеческие транскрипции по-прежнему являются лучшим вариантом. Читайте полный пост здесь.
Первоначально опубликовано на https://www.gmrtranscription.com.