Звук — Следующий рубеж

Речь – самая древняя форма общения, известная людям. Со временем он продолжал оставаться предпочтительным средством коммуникации или, по крайней мере, наиболее эффективным для большинства населения.

Даже сегодня речь — это самая простая, самая естественная и самая эффективная форма общения, известная людям. Поскольку люди ищут более естественные способы взаимодействия с машинами, Voice станет следующим большим шагом в UX.

Помимо общения, люди также использовали звуки для ряда диагностических целей. Охотники слушают и используют звуки, чтобы выслеживать и заманивать добычу. Врачи слушают ваше сердцебиение и дыхание, чтобы оценить состояние вашего здоровья. Механики (и даже вы) слушаете свой автомобиль и говорите: «Это звучит неправильно».

В последнее время в области голосовой связи наблюдается большая активность. В последние несколько лет мы наблюдаем быстрый рост голосовых интерфейсов и аудиоконтента, такого как подкасты, аудиокниги, брифинги Alexa и т. д.

Голосовые человеко-машинные интерфейсы, чаще всего в виде голосовых помощников, сегодня находятся на переднем крае голосовых технологий. Автомобильные голосовые помощники и домашние помощники, работающие без помощи рук, получили широкое распространение на потребительском рынке и будут продолжать доминировать.

Однако, выходя за рамки просто голосовых помощников, звуковые решения создаются и все чаще используются в розничной торговле, здравоохранении, промышленном IoT и различных других областях. Достижения в области микрофонных технологий, цифровой обработки сигналов, машинного обучения, глубокого обучения и т. п. подпитывают рост этих инноваций (так же, как это произошло с инновациями, основанными на изображениях и видео).

Звук вездесущ, и все генерирует звук, будь то люди или машины. Обычно он несет больше информации (эмоции, контекст, громкость и т. д.) по сравнению с текстом, и его легко собрать. Эта богатая информация помогает сделать более качественный анализ, который в противном случае был бы невозможен.

Микрофоны, обученные слушать и классифицировать различные звуки, могут изменить ряд отраслей. Например, очень практичным вариантом использования является диагностика туберкулеза на основе звука вашего кашля. Для контекста, в настоящее время его можно диагностировать только с помощью ряда тестов, которые проводятся после первоначального анализа кожи или крови для подтверждения наличия бактерий, вызывающих туберкулез.

Варианты использования могут быть даже такими отдаленными, как идентификация умирающего поросенка, когда его вот-вот раздавит свинья, переворачивающаяся на ферме.

Вот несколько отобранных доменов с интересными вариантами использования, которые выходят за рамки простого голоса и сосредоточены на «звуке» — и это только верхушка айсберга.

1. Промышленный Интернет вещей

Несмотря на то, что доступно множество датчиков и платформ IoT, развертывание решений IoT в производственных отраслях не является беспроблемным по следующим причинам:

а. Датчики должны быть либо подключены, либо установлены на существующих машинах, а иногда и подключены к машинам.

б. Техническое обслуживание вышеуказанных систем непросто, особенно если машины перемещаются.

в. Устаревшие машины могут не иметь механизма для сбора данных.

Однако датчики на основе звука обеспечат простое бесконтактное и ненавязчивое решение вышеуказанных проблем. Это побудило бы отрасли опробовать решения, не внося кардинальных изменений в существующие настройки.

2. Медицинская диагностика

Исторически слышимый звук имел два основных применения в здравоохранении — стетоскопы и, хотите верьте, хотите нет, медицинская транскрипция. Стетоскопы, пожалуй, самые узнаваемые из всех медицинских диагностических устройств, используемых для прослушивания сердца, легких и даже кровотока в артериях и венах.

Однако это всегда было нецифровое устройство. С появлением электронных стетоскопов качество звука улучшилось, что привело к лучшей диагностике, а также их можно записывать и сохранять для дальнейшего анализа, консультаций с другими врачами и, что более важно, для обучения интернов, младших врачей и даже моделей машинного обучения.

Эта последняя часть дает возможность собирать большие наборы данных, которые могут быть накоплены с течением времени, и обучать модели, которые затем могут диагностировать заболевания на ранней стадии, и не обязательно при значительном участии человека, как это требуется в настоящее время.

В дополнение к этому, звуковая диагностика не должна ограничиваться только стетоскопами; Возьмем, к примеру, стартап, работающий над диагностикой туберкулеза путем изучения кашля.

Даже медицинская транскрипция сейчас претерпевает технический пересмотр — есть стартапы, которые пытаются транскрибировать голосовые заметки врачей в текст в режиме реального времени, избегая хлопот и задержек, связанных с ручной расшифровкой того же самого командой.

3. Инструменты для создания контента

С увеличением потребления голосового контента, особенно подкастов и аудиокниг, возникает большой спрос на инструменты для создания и редактирования голосового контента.

Поскольку доступные инструменты не очень удобны для пользователя, в этой области есть много возможностей для инноваций, например, редактирование аудиофайлов с использованием их текстового представления.

С развитием технологии синтеза голоса другим вариантом использования может быть создание аудиоконтента с минимальными усилиями со стороны говорящего.

4. Персонализация звуковой рекламы

Прослушивание звуков вокруг вас дает много контекстной информации, которую можно использовать для персонализации рекламы.

Интересным решением для рекламодателей является показ релевантной рекламы на вашем дополнительном устройстве (например, на вашем мобильном телефоне) на основе звуков, генерируемых контентом, который вы потребляете на своем телевизоре или ноутбуке.

Другой вариант использования — локализовать свое положение в розничном магазине, улавливая звук из динамиков, которые довольно распространены, и использовать его для показа релевантной рекламы на мобильном устройстве в режиме реального времени.

5. Анализ звонков клиентов

Поскольку предприятия все больше инвестируют в то, чтобы их клиенты были довольны, крайне важно анализировать их взаимодействие с клиентами более подробно и методично, а не на основе выборки. Однако количество звонков клиентов просто слишком велико для ручного анализа.

Автоматизация анализа звонков клиентов с использованием транскрипции, а затем определение намерений и настроения клиента будет иметь большое значение для повышения удовлетворенности клиентов. Выполнение этого в режиме реального времени также может позволить представителям службы поддержки управляться во время самого звонка.

При разработке решений, работающих в режиме реального времени, высокоточных и, что более важно, обеспечивающих «конфиденциальность», возникает множество проблем. Но с развитием технологий, особенно периферийных вычислений, мы обязательно увидим решения, которые решают все эти проблемы.

В Ideaspring Capital мы с нетерпением ждем открытия инновационных стартапов в этой области и воодушевлены потенциалом, который она таит.

Эта статья была написана Сурьяпракашем Конаруру, техническим директором Ideaspring Capital.