Как мы делаем обнаружение тишины в разговоре на основе аудиосегментации при звонках в контакт-центр

При среднем звонке в контакт-центр более 35 % звонка — это тишина, когда ни оператор, ни клиент не разговаривают. Мы называем это разговорным молчанием.

Разговорное молчание состоит в основном из музыки ожидания, автоматически записанных сообщений или просто молчания, когда агент или клиент не говорит активно. Большинство этих молчаний в разговоре негативно влияют на важные KPI контакт-центра (затхлый эфир влияет на удовлетворенность клиентов, длительное время ожидания влияет на среднее время обработки и т. д.).

В этой статье я продемонстрирую нашу базовую технологию в Observe.AI, которая автоматически выявляет инциденты молчания в разговоре.

Прежде чем мы углубимся, давайте определим несколько терминов, которые вы встретите на протяжении всей статьи:

Безмолвие при разговоре → Область звонка, где не разговаривают ни оператор, ни клиент. Два наиболее важных типа разговорной тишины в контакт-центре — это мертвый эфир и нарушение времени удержания.
Мертвый воздух→ молчание в разговоре, которое происходит без того, чтобы агент подсказал клиенту ожидать тишины. Общий предел составляет 10 секунд для мертвого воздуха.
Нарушение времени удержания (HTV) → молчание в разговоре, когда агент переводит клиента на удержание, следуя подходящему протоколу, но продолжительность удержания превышает указанный заранее установленный предел. . Общий предел составляет 120 секунд для HTV.

Далее давайте более подробно рассмотрим конвейер, который принимает звук вызова в качестве входных данных и выдает мертвые эфиры и теги HTV в качестве выходных данных. Этот конвейер имеет несколько компонентов, и каждый из них выводит определенный профиль, который используется в качестве входных данных для следующего компонента в конвейере.

Аудиофайл. Контактные центры записывают свои звонки и делятся этими записями с Observe.AI. После редактирования данных PCI и PII аудиозапись проходит через конвейер маркировки мертвого эфира/HTV.

Аудиосегментатор. Это основная часть технологии, которая находится в стадии разработки. Этот компонент принимает в качестве входных данных необработанный аудиофайл и выводит аудиопрофиль для вызова.

Он состоит из двух подкомпонентов: VggishFeatureExtractor отвечает за извлечение спектрограммы из аудиофайла, а затем передачу ее через точно настроенную сеть vggish для получения соответствующих аудио-эмбеддингов. Эти вложения затем отправляются в двунаправленный классификатор RNN, который был обучен на пользовательских данных для получения аудиопрофиля для входного вызова.

ASR: параллельно с описанными выше этапами конвейера мы также запускаем AutomaticSpeechRecognition для вызова, чтобы получить расшифровку ASR. Этот ASR обучен на тысячах часов аннотированных аудиофайлов колл-центра.

Текстовый классификатор. Текстовый контекст вокруг каждой паузы в разговоре затем используется для определения того, было ли сообщено оператором колл-центра клиенту ожидать паузы. Требуемый текстовый контекст берется из транскрипции ASR вокруг идентифицированных разговорных пауз. Контекст отправляется классификатору SVM для предсказания.

Нет в эфире и Теги HTV. Наконец, исходя из минимальной продолжительности порога тишины, длины максимального порога времени удержания, установленного пользователями, в сочетании с категорией подсказок из классификатор текста, каждый экземпляр тишины в разговоре классифицируется как пауза в эфире или нарушение времени удержания или соответственно игнорируется.

Как мы делаем обнаружение тишины в разговоре на основе аудиосегментации при звонках в контакт-центр

Вопросы по теме