Технология Deepfake Voice: польза. Плохо. Будущее

Технология Deepfake voice, основанная на клонировании голоса или квазиидеальном воспроизведении голоса человека, может быть использована как во благо, так и во вред. Его можно поставить на службу синтеза голоса, который может вернуть голос людям, которые в противном случае потеряли бы его из-за острых или хронических состояний, таких как БАС, апраксия, черепно-мозговая травма, инсульт и т. д.

Он уже используется в кино- и телеиндустрии, играх, колл-центрах, а также потенциально удобен для шифрования и терапии. Однако нельзя отрицать, что это может представлять значительную угрозу демократическим процессам, в частности тем, которые связаны с ценностью конфиденциальности. При ненадлежащем использовании технология дипфейк-голоса может привести к обману и домогательствам.

Именно потому, что мы полностью осознаем это, мы в Respeecher уделяем большое внимание использованию голосовых технологий таким образом, чтобы свести к минимуму риск ввести людей в заблуждение, заставив их думать, что кто-то сказал то, чего они не говорили.

Мы стремимся к тому, чтобы наша новаторская технология использовалась только в этических проектах и не попадала в чужие руки. Мы не используем голос частного лица или актера без разрешения и всегда просим письменное согласие владельцев голоса. Однако мы разрешаем не вводящее в заблуждение использование голосов исторических деятелей и политиков, таких как Ричард Никсон или Барак Обама, но только для проектов, отвечающих этическим стандартам.

А как насчет вариантов использования для бизнеса? Цифры показывают, что у экономических организаций есть огромные возможности использовать голос для приобретения и сохранения нового бизнеса. Согласно отчету AppDynamics за 2018 год, к 2020 году половина поисковых запросов в Интернете будет осуществляться с помощью голоса.

61% опрошенных лиц, принимающих решения в области ИТ, идут еще дальше, ожидая, что голосовые команды полностью заменят вводимые вручную команды для поиска информации в Интернете. И молодое поколение лидирует — 84% миллениалов уже используют голосовых помощников, которые помогают им следить за своим ежедневным расписанием и обязанностями.

Хорошее.

Предоставление возможности говорить естественно людям, страдающим от широкого спектра заболеваний

Способность общаться, делиться мыслями и чувствами, произнося слова, чрезвычайно важна, по сути, это одна из тех вещей, которые делают нас, людей, особенными. Но есть еще кое-что, что революционная технология преобразования голоса может сделать для людей с нарушениями речи.

Рассмотрим расширение технологий домашней автоматизации с помощью голосового управления. Клонирование голоса может сделать людей, которые не могут говорить естественно, более независимыми, способными лучше использовать устройства, которыми можно управлять голосом.

Голосовые помощники

Согласно Прогнозу Ovum для цифровых помощников и устройств с поддержкой голосового ИИ: 2016–21, к 2021 году голосовых помощников будет больше, чем людей, живущих на Земле. Возьмем в качестве примера Google Assistant. Его голос генерируется системой преобразования текста в речь Tacotron 2, основанной на двух глубоких нейронных сетях.

Первый преобразует текст в визуальное представление (то есть спектрограмму) звуковых частот с течением времени, а затем система WaveNet анализирует спектрограмму и создает аудиоэлементы. В результате получается речь, почти неотличимая от человеческой речи, даже когда речь идет о произношении сложных слов.

Интерактивный контент для онлайн-курсов

Клонирование голоса с помощью искусственного интеллекта избавляет от необходимости записывать заметки для каждой новой сессии или записывать заново, чтобы исправить возможные ошибки. Это приводит к сокращению как финансовых, так и временных затрат на профессионально записанные лекции и, следовательно, способствует распространению онлайн-курсов. И это немаловажно, особенно в трудные времена, которые мы переживаем из-за ограничений, связанных с COVID-19.

Плохое

Шантаж

Поддельные, но чрезвычайно реалистичные видео с откровенно сексуальными или жестокими сценами могут быть созданы путем совместного использования технологии дипфейк-голоса и дипфейк-видео.

Спам по электронной почте

Если вы получили электронное письмо с просьбой «связаться с банком X по электронной почте, указанной ниже, чтобы получить дальнейшие инструкции по процедуре банковского перевода», вполне вероятно, что вы расцениваете это как спам и ничего с этим не делаете. Однако последующий телефонный звонок от кого-то, кто звучит точно так же, как доверенное лицо, и советует вам ответить на электронное письмо, может изменить ваше мнение и заставить вас сделать то, чего вы не хотели бы делать.

Обслуживание незаконной конкуренции

Кто-то может притворяться генеральным директором компании X и с этой позиции представлять фиктивные данные во время фальшивых звонков о прибылях и убытках, обманывая заинтересованные стороны и инвесторов, заставляя их поверить в то, что цены на акции отличаются от реальных. Тот же незаконный метод может быть использован для саботажа конкурентов в отрасли.

Мы с болью осознаем, что технологии синтетических носителей потенциально могут быть использованы во вред. Это одна из причин, почему наша технология недоступна для общественности. Мы ограничиваем использование наших систем преобразования голоса приложениями для создания не вводящего в заблуждение контента, ограничивая круг лиц, с которыми мы работаем, и то, что мы позволяем им делать с нашей технологией.

Мы надеемся, что, выйдя на рынок раньше, мы действительно сможем помочь информировать общественность о том, что технически возможно, и снизить вероятность того, что люди попадутся на обманчивую синтетическую речь. Мы также считаем, что важную роль в ограничении этого вреда могут сыграть такие привратники, как Youtube и Facebook, и мы готовы работать с такими платформами для обнаружения и заметной маркировки синтетической речи.

Будущее

Случаи использования B2B

Принимая во внимание результаты цитируемого выше отчета AppDynamics, использование технологий преобразования голоса компаниями должно определяться не с точки зрения «если», а с точки зрения «когда». 69% лиц, принимающих решения в области ИТ, работают в организациях, которые уже инвестируют или планируют инвестировать в голосовые технологии в течение следующих 3 лет.

Независимо от того, ищете ли вы репликацию голоса, лечение проблем с речью, дублирование и ADR, шифрование, игры и т. д., все они, вероятно, выиграют от использования клонирования голоса. Например, предполагаемая разработка системы реального времени (в настоящее время процесс продолжается) в играх позволит игрокам использовать разные голоса во внутриигровых чатах. Вещи развиваются быстро, когда дело доходит до технологии дипфейк-голоса.

Клонирование голоса для колл-центров

Сейчас Respeecher работает над прорывными технологиями, которые позволят зарубежным операторам звучать как местные. Наконец-то мы приближаемся к решению, позволяющему операторам звучать больше как люди, с которыми они разговаривают по телефону. В том же духе наши роботы-операторы скоро будут звучать более по-человечески, как только мы запустим преобразование голоса.

Заключение

Голосовая технология Deepfake действительно создает риски для безопасности, но их признание и попытка свести к минимуму — это первые шаги к тому, чтобы сосредоточиться в основном на хорошем. Клонированные голоса, которые звучат неотличимо от оригинальных динамиков, идеально подходят для кинематографистов, разработчиков игр, создателей другого медиаконтента, а вскоре и для колл-центров.

Поскольку цифровые реплики голосов уже могут улавливать нюансы и эмоции, расширяется область применения, что может быть очевидно для всех, кто недавно пробовал разговаривать (да, фраза правильная!) с виртуальными помощниками, такими как Bixby от Samsung. , Siri от Apple или Alexa от Amazon.

Консультирование и товарищеские отношения — это новые функции, которые, как ожидается, появятся в результате создания голосов, выражающих эмоции. Творческий процесс будет упрощен за счет новой возможности изменять контент без необходимости перезаписывать исходные голоса.

Эта статья изначально была опубликована Respeecher в качестве гостевого поста на HackerNoon.

Технология Deepfake Voice: польза. Плохо. Будущее

Вопросы по теме