Использование генеративных моделей глубокого обучения на устройстве, часть 2: текст и аудио

Введение

В первой части этой серии [Часть 1, Генерация изображений] мы увидели, что такое глубокие генеративные модели и на что они способны. Что еще более важно, мы увидели, как они могут улучшить взаимодействие с пользователем на смартфонах, и изучили несколько возможных приложений в области создания и преобразования изображений. Сегодня мы узнаем, что они могут делать с текстом и аудио на наших устройствах.

1. Текст

Генерация естественного языка - это подраздел машинного обучения, в котором мы пытаемся создавать алгоритмы, способные генерировать содержательные предложения либо с нуля, либо с учетом конкретного контекста. Это заведомо сложная задача, поскольку от модели требуется понимание грамматики, лексики и спряжения, а также значения. Малейшая ошибка, скорее всего, испортит созданный контент. Легко пропустить несколько странных пикселей на изображении, но даже одно неуместное слово будет очевидным.

Тем не менее, генеративные модели в этой области достигли огромного прогресса за последние несколько лет, что привело к потрясающим результатам GPT-2 от OpenAI [Radford et al, 2019], которые могут генерировать полные абзацы из короткого приглашения.

Мы привыкли, что наши смартфоны предсказывают следующее наиболее вероятное слово в предложении, но с генеративными моделями мы можем сделать гораздо больше, например предложить целые предложения из нескольких слов, включая смайлики. С помощью этой функции вы можете записать голое содержание вашего электронного письма / текста и выбирать между несколькими сгенерированными предложениями с разной степенью многословности, понятности и тона.

Вы также можете представить себе использование той же технологии для создания индивидуального пошагового обучения языку. Представьте себе возможность выучить новый язык с помощью приложения, которое автоматически переводит весь контент на вашем телефоне (браузер, приложения, почту и т. Д.), Предлагая при этом разные уровни сложности языка.

2. Аудио

Мы можем обучать генеративные модели не только тексту и изображениям, но и созданию звука. Это также чрезвычайно сложная задача, поскольку аудиоданные требуют понимания как долгосрочных, так и очень краткосрочных зависимостей, а также согласованности в частотной области интонации и тембра.

Недавние работы, такие как WaveNet из DeepMind [Oord et al., 2016], проложили путь для генерации звука, показав очень многообещающие результаты. Мы можем представить, какие возможности откроет создание звука для наших устройств.

Аудио для общения

Первый крупный вариант использования смартфонов - это, конечно, телефонные звонки. Это самая основная функция портативных устройств, но заставить ее работать все равно может быть проблематично, особенно в тех областях, где у вас не очень много сигнала.

Точно так же, как встраивания, которые мы видели в прошлый раз для изображений, мы можем представить себе использование встраивания звука для уменьшения пропускной способности телефонного звонка / FaceTime. Вместо того, чтобы передавать необработанный звук (сжатый или нет), вы передаете закодированный звук, который будет использоваться для воссоздания звука на другом телефоне. Такой подход значительно сократит объем отправляемых данных с дополнительным преимуществом, включающим также тон и тембр говорящего.

Эту сжатую информацию было бы легче отправить в ситуациях с низким уровнем сигнала. Декодированный звук не будет на 100% таким же, как оригинал, но будут присутствовать содержание, характеристики голоса и интонация, что даст результат, который намного предпочтительнее низкого уровня сигнала. качественный прерывистый звук.

С такой моделью мы можем представить, что делаем то же самое для текстовых сообщений, и Siri, Alexa или Google Assistant прочитают их голосом отправителя вместо голоса AI по умолчанию. Для этого потребуется только сохранить вложение, содержащее голосовые характеристики отправителя, где-то на вашем устройстве - точно так же, как мы делаем с контактной информацией.

Благодаря недавней выдающейся работе Translatotron от Google [Jia et al., 2019] мы можем увидеть, насколько мощна эта концепция. Поскольку закодированный звук содержит всю информацию о голосе и интонации говорящего, а также о значении, мы можем декодировать вложение на другом языке.

Это открывает такие возможности, как перевод аудио в реальном времени. Мы могли бы разговаривать с людьми, говорящими на их родном языке, и слышать других на том же языке, сохраняя при этом тон, значение и голос. Я не думаю, что можно превзойти это с точки зрения устного общения на устройстве.

Примечание. Мы уже можем сделать устный перевод сегодня в три этапа: преобразовать речь в текст, перевести текст и затем создать звук из текста. Но при этом мы теряем интонацию. Использование вложений, содержащих всю эту информацию, даст результаты более точные, чем исходный звук.

Аудио для музыки и развлечений

Конечно, генеративные модели можно использовать не только для общения. Есть много других мест, где наши смартфоны могли бы получить от них пользу. Одно из возможных приложений - очистка или улучшение качества музыкальных записей на лету (Google AI [Kim et al., 2019], DeepMind [Gupta et al., 2019]).

Вы можете послушать оригинальную запись (скажем, фортепианный концерт 1940-х годов или песню Pink Floyd, исполненную вживую) или использовать генеративную модель для повышения частоты дискретизации звука, чтобы он звучал богаче и менее шумно, оставаясь при этом верным с точки зрения нот. , фразировка и т. д. Более того, вы даже можете изменить некоторые инструменты, наложить их на слои или даже добавить полноценный оркестр! Facebook [Mor et al., 2018].

Другое приложение могло бы использовать тот же метод декодирования встраивания, который мы обсуждали ранее, для преобразования голоса говорящего. Во время прослушивания аудиокниги вы можете попросить ее прочитать известный актер или тот, чей голос вам особенно нравится. То же самое можно сделать и с комедийными эффектами, как в фильтрах Snapchat или TikTok. Использование глубинных генеративных моделей сделает возможным более богатое преобразование голоса, чем простые эффекты (сдвиг высоты тона, фазовращатели, фленджер, реверберация и т. Д.), Которые мы имеем сегодня.

Заключение

В заключение этой серии, состоящей из двух частей, я считаю справедливым сказать, что генеративные модели войдут во все части наших устройств и улучшат взаимодействие с пользователем, позволив нам делать больше. Генерация изображений, звука и текста - это области исследований, в которых мы развиваемся с невероятной скоростью, и мы должны быть готовы осваивать новые технологии и находить им хорошее применение в наших смартфонах и планшетах.

Примечание редактора: Heartbeat - это онлайн-публикация и сообщество, созданное авторами и посвященное предоставлению первоклассных образовательных ресурсов для специалистов по науке о данных, машинному обучению и глубокому обучению. Мы стремимся поддерживать и вдохновлять разработчиков и инженеров из всех слоев общества.

Независимая редакция, Heartbeat спонсируется и публикуется Comet, платформой MLOps, которая позволяет специалистам по обработке данных и группам машинного обучения отслеживать, сравнивать, объяснять и оптимизировать свои эксперименты. Мы платим участникам и не продаем рекламу.

Если вы хотите внести свой вклад, отправляйтесь на наш призыв к участникам. Вы также можете подписаться на наши еженедельные информационные бюллетени (Deep Learning Weekly и Comet Newsletter), присоединиться к нам в » «Slack и подписаться на Comet в Twitter и LinkedIn для получения ресурсов, событий и гораздо больше, что поможет вам быстрее и лучше строить модели машинного обучения.