ИИ может воспроизвести любой человеческий голос: что это значит для подкастов?

Искусственный интеллект теперь может воспроизвести любой человеческий голос, и этот технологический прогресс отразился в нескольких отраслях. Давайте посмотрим, как это сделать.

Подкастинг движется к более неформальному жанру аудиоповествования. Больше внимания уделяется отношениям между хозяином и слушателем, чему способствует менее искусное использование языка.

То есть ведущий пытается говорить на одном языке со всеми, что упрощает понимание и реакцию. По этой причине аудиорассказы следуют восходящей тенденции с точки зрения популярности. Цифры подтверждают это утверждение.

По данным Statista, в 2018 году в США уже было 75 миллионов слушателей подкастов, и прогнозируется, что число ежемесячных слушателей достигнет 164 миллионов в 2024 году. Совокупный годовой темп роста в период с 2019 по 2023 год составил оценивается в 17%.

В 2020 году три четверти американцев заявили, что знают о подкастинге, и более половины из них (55%) уже слушали подкаст. Самый прибыльный подкаст в мире, «Опыт Джо Рогана» Джо Рогана, принес 50 миллионов долларов США в 2019 году и, как сообщается, его скачивали почти 200 миллионов раз в месяц.

Основной текущей проблемой индустрии подкастов является сохранение ее редакционной независимости при возможности собрать ресурсы, необходимые для поддержки такого необычайного роста. Как это часто бывает в наши дни, прорывные технологии, такие как искусственный интеллект с его возможностями клонирования голоса, могут обеспечить по крайней мере часть решения.

Подходящим примером является Проект Никсона, который убедительно доказывает, что ИИ может воспроизводить человеческий голос таким образом, что он неотличим от оригинальных голосов. Группа исследователей, журналистов и художников из Массачусетского технологического института объединилась с компанией по клонированию голоса Respeecher и компанией VDR Canny AI, чтобы создать альтернативную историю первого полета на Луну, где астронавты Нил Армстронг и Эдвин Базз Олдрин проваливают свою миссию и оказываются на Луне.

Они создали посмертный дипфейк, изменив реальное видео президента Никсона, и таким образом сделали возможным услышать, как он сообщает миру, что путешествие на Луну закончилось трагически.

Как подкасты могут использовать ИИ

Основная задача компьютеризированных голосов — воспроизвести человеческий голос со всеми его эмоциональными нюансами и избежать звука робота. Цель состоит в том, чтобы вооружить голоса способностью выражать тонкие нюансы. Технологии преобразования речи в речь, основанные на методах искусственного интеллекта, позволяют сделать именно это.

Виртуальные помощники, такие как Siri от Apple, Alexa от Amazon, Cortana от Microsoft или Google Assistant, по-прежнему используют преобразование текста в речь. Хотя TTS по-прежнему является очень полезной технологией, она довольно усложняет получение различных звуков для голоса, например, чтобы Siri звучала как пожилой человек: для этого требуется новый аудиофайл помимо предварительно записанных файлов, которые содержат все слова, которые могут понадобиться в разговоре. Итак, давайте посмотрим на некоторые преимущества, которые обещает принести преобразование речи в речь.

Как вы можете использовать клонирование голоса AI для подкастов?

Искусственный интеллект расширяет возможности клонирования голоса. Это может помочь вам идеально воспроизвести любой голос для любого проекта подкаста. «Умный коктейль», обычно состоящий из двух ингредиентов — классических алгоритмов цифровой обработки сигналов и запатентованных методов глубокого генеративного моделирования — позволяет производителям контента использовать наиболее подходящий голос, несмотря на логистические проблемы (например, актеры, которые не могут находиться в студии, когда они вам нужны, актеры, которые ушли из жизни).

Вот список того, как вы можете использовать клонирование голоса, чтобы улучшить производство подкастов и в то же время приблизить их к тому, что хочет слушать ваша аудитория.

1. Вовлекайте знаменитостей в свой проект

Чем известнее актер, писатель, спортсмен и т. д., тем сложнее использовать их голос в подкасте. Но если вы воспользуетесь искусственным интеллектом для воспроизведения человеческого голоса, вам больше не придется ждать, пока их чрезвычайно плотный график позволит им прийти в студию. Таким образом, вы можете предлагать своим слушателям записи их любимых голосов, не тратя много времени и денег на то, чтобы принести их в студию.

2. Верните голоса из прошлого

Клонирование голоса может помочь вам закончить проект в соответствии с вашими ожиданиями, даже если, к сожалению, один из ваших актеров скончался. Вы делаете исторический подкаст о последних днях президента Дж. Ф. Кеннеди? Технология преобразования голоса может помочь вам использовать его точный голос, а не просто «близкие приближения».

3. Используйте детские голоса без суеты, которая обычно возникает при работе с детьми.

Дети часто говорят удивительно смешные вещи не обязательно из-за содержания, а просто из-за того, как они это говорят (тон, интонация, акцент и т. д.). В то же время с ними может быть очень сложно работать. Синтез голоса упрощает процесс, позволяя профессиональным актерам говорить то, что говорят дети, именно так, как они это делают.

4. Начинайте быстро и продолжайте в том же духе, пока не закончите свой проект подкаста.

ИИ может мгновенно воспроизвести человеческий голос. Все, что вам нужно предоставить, — это высококачественную запись целевого голоса, и через короткое время все будет готово.

Вывод

Рекламный доход от подкастов достиг 220 миллионов долларов в 2017 году и удваивается каждый год. Растущая вовлеченность пользователей является главной привлекательностью для потенциальных рекламодателей, наряду с тем фактом, что рекламу подкастов действительно слышат, о чем свидетельствует уровень завершения около 90 процентов.

Более того, рекламодатели готовы платить за некоторые слоты подкастов до 30 долларов за тысячу показов (стоимость за тысячу показов рекламы). Это число имеет больше смысла, если учесть, что средняя цена за тысячу показов в Facebook составляет около 6 долларов.

Кажется, существует близкая аналогия между кабельным телевидением, медленно, но верно замещающим сетевое телевидение, и отношениями между подкастингом и радио. Даже если мы ограничим аналогию рекламными бюджетами радио, это будет означать бонус в размере 20 миллиардов долларов к текущему финансовому положению индустрии подкастов. И, как мы говорили в начале, рост числа слушателей оправдывает ожидания систематического, постоянного увеличения прибыли.

Такие цифры ясно показывают, что подкасты никуда не денутся и что существует острая необходимость в расширении возможностей производителей аудиоконтента с помощью более эффективных методов.

Пункты в приведенном выше списке приводят к повышению производительности и прибыльности, поэтому использование клонирования голоса ИИ для подкастов может способствовать развитию сектора и, следовательно, лучше решать проблему редакционной независимости.

Эта статья изначально была опубликована Respeecher в качестве гостевого поста на DZone.