В целом это большой вопрос!
Проблема с любой системой распознавания речи в том, что она лучше всего работает после тренировки. Ему нужен контекст (какие слова ожидать) и какой-то тест звука (как звучит каждый голос). Это может быть возможно в некоторых случаях, например, в телесериале, если вы хотите потратить часы на речь, отведенную для каждого персонажа, для ее тренировки. Хотя там много работы. Для чего-то вроде фильма, вероятно, нет никакой надежды обучить распознавателя, если вы не сможете овладеть актерами.
Большинство кинокомпаний и телекомпаний просто нанимают медиа-компании для расшифровки субтитров либо на основе прямой транскрипции с использованием человека-оператора, либо на основе преобразования сценария. Тот факт, что им все еще нужны люди, участвующие в этих огромных операциях, говорит о том, что автоматизированные системы еще не готовы к этому.
В видео есть множество вещей, которые усложняют вашу жизнь, в значительной степени охватывающие огромные массивы текущих исследований в области речевых технологий:
-> Несколько динамиков -> «Идентификация говорящего» (вы можете различать символы? Кроме того, субтитры обычно имеют разный цвет текста для разных динамиков)
-> Несколько одновременных выступающих -> "Проблема коктейля" - можете ли вы разделить два голосовых компонента и расшифровать оба?
-> Фоновый шум -> Вы можете выбрать речь из любого саундтрека / фоли / взрывающихся вертолетов.
Речевой алгоритм должен быть чрезвычайно надежным, поскольку разные персонажи могут иметь разный пол / акценты / эмоции. Насколько я понимаю, после некоторого обучения вы сможете получить одного оратора, но попросить одну программу, чтобы охватить их всех, может быть непросто!
--
Я не знаю ни одного формата "субтитров". Я бы посоветовал сохранить изображение текста, используя шрифт типа Tiresias Screenfont, который конкретно разработан для удобочитаемости в этих обстоятельствах, и использовать таблицу поиска для перекрестных ссылок на изображения с временным кодом видео (помня, что NTSC / PAL / Cinema используют разные форматы синхронизации).
--
Существует множество проприетарных систем распознавания речи. Если вам нужно самое лучшее, вы, вероятно, захотите лицензировать решение у одного из таких больших парней, как Nuance. Если вы хотите, чтобы вещи оставались бесплатными, университеты RWTH и CMU собрал вместе несколько решений. Я понятия не имею, насколько они хороши и насколько хорошо они подходят для решения этой проблемы.
--
Единственное решение, которое я могу придумать, похожее на то, к чему вы стремитесь, - это субтитры, которые вы можете получить на новостных каналах здесь, в Великобритании, «Live Closed Captioning». Поскольку он жив, я предполагаю, что они используют какую-то систему распознавания речи, обученную читателю (хотя она может быть не обучена, я не уверен). За последние несколько лет ситуация улучшилась, но в целом все еще довольно плохо. Самая большая проблема, с которой он борется, - это скорость. Диалог обычно происходит очень быстро, поэтому с живыми субтитрами возникает дополнительная проблема, заключающаяся в том, чтобы все было сделано вовремя. Живые субтитры довольно часто остаются позади, и им приходится пропускать много контента, чтобы наверстать упущенное.
Придется ли вам с этим справиться, зависит от того, будете ли вы использовать субтитры для «живого» видео или можете ли вы его предварительно обработать. Чтобы справиться со всеми дополнительными сложностями, описанными выше, я предполагаю, что вам нужно будет его предварительно обработать.
--
Как бы я ни ненавидел цитировать большую букву W, здесь есть кладезь полезных ссылок !
Удачи :)
person
Speedy
schedule
28.08.2011