Что такое процент ошибок в словах? Измерение WER машинно-генерируемых расшифровок и его ограничения

Индустрия транскрипции сильно изменилась за последние 10 лет. Академические и медицинские фирмы остаются крупнейшими клиентами транскрипции. Однако другие отрасли, такие как финансы, юриспруденция, производство и образование, также составляют значительный процент клиентской базы.

Программное обеспечение автоматического распознавания речи (ASR) сделало нашу повседневную жизнь более удобной. Например, Alexa теперь может сказать вам, какая погода будет сегодня.

Возможно, как и большинство отраслей, индустрия транскрипции пострадала от ASR. Это программное обеспечение все чаще используется различными игроками, которым требуются стенограммы. ASR — дешевое решение для транскрипции. Однако существует большая проблема с точностью расшифровок ASR.

Согласно исследованиям, в которых сравнивались показатели точности транскрипционистов-людей и программного обеспечения ASR, у транскрипционистов-людей был коэффициент ошибок около 4%, в то время как у коммерчески доступного программного обеспечения транскрипции ASR было обнаружено, что частота ошибок составляет 12%.

Короче говоря, частота ошибок ASR в три раза выше, чем у людей.

В 2017 году компания Google объявила, что ее программное обеспечение для распознавания голоса достигло коэффициента ошибок в словах (WER) примерно 4,7 %. Это действительно возможно?

Давайте разберемся, как работает ASR и каковы его последствия в нашей индустрии транскрипции и перевода.

Что такое механизм частоты ошибок в словах (WER): по определению

Частота ошибок в словах (WER) — это распространенный показатель, используемый для сравнения точности стенограмм, созданных API-интерфейсами распознавания речи.

Как рассчитать WER (механизм частоты ошибок в словах)

Вот простая формула, чтобы понять, как рассчитывается коэффициент ошибок в словах (WER):

WER= S+I+D/N

S означает замены,
I означает вставки,
Dобозначает удаление,
N — количество слов в ссылке (которые были фактически сказаны).

Что влияет на количество ошибок в словах?

Для API-интерфейсов распознавания речи, таких как IBM Watson и Google Speech, уровень ошибок в словах, равный 25 %, является средним показателем для обычного распознавания речи. Если речевые данные более технические, более «акцентированные», более специфичные для отрасли и более шумные, становится менее вероятным, что общий API распознавания речи (или люди) будут более точными.

Технический и отраслевой язык

Транскрибаторы-люди берут больше за технический и отраслевой язык, и на это есть причина. Надежное распознавание отраслевых терминов сложно и требует усилий. Из-за этого системы распознавания речи, обученные на «средних» данных, испытывают трудности с более специализированными словами.

Транскрипция ASR может быть дешевле, чем человеческие услуги транскрипции. Однако его ошибки могут дорого обойтись. Если вам нужны точные стенограммы, человеческие транскрипции по-прежнему являются лучшим вариантом. Читайте полный пост здесь.

Первоначально опубликовано на https://www.gmrtranscription.com.