Анализ текста и НЛП: любовь с первого взгляда

Обработка естественного языка становится все более популярной в контексте анализа текста. Узнайте, почему использование НЛП - лучший способ понять голос ваших клиентов и почему ваш бизнес может упускать из виду, если вы еще не используете эту технологию.

Анализ текста (он же Text Mining) - это процесс понимания и сортировки текста, упрощающий управление. В нашем предыдущем блоге мы дали вам представление о том, почему анализ текста может быть последней частью головоломки роста, которую пытается решить каждый бизнес. В конце концов, в эпоху, насыщенную информацией, в которую мы живем, то, что может быть более ценным, чем способность организовать эту информацию структурированным и значимым образом, чтобы мы, люди, могли понять и извлечь из этого пользу.

Начнем с истории Тома.

Том - руководитель отдела обслуживания клиентов в успешной продуктовой компании среднего размера. Том очень усердно работает, чтобы оправдать ожидания клиентов, и ему удалось повысить показатели NPS в последнем квартале. У его продукта высокий уровень лояльности покупателей на рынке, полном компетентных конкурентов. С точки зрения Тома, дела идут хорошо, но внезапно он начинает замечать, что поступает все больше заявок в службу поддержки. Том действительно обеспокоен и не знает, что с этим делать.

Том понимает, что для решения этой проблемы ему необходимо понимать голоса своих клиентов.

Он решает нанять команду маркетинговых аналитиков. Команда собирает около 50 000 комментариев из различных источников в Интернете, в которых упоминается компания Тома. Примерно через месяц тщательного исследования данных команда составляет окончательный отчет, в котором отражены несколько аспектов недовольства клиентов продуктом. На основании этого отчета Том вносит изменения в свой продукт.

После этого Том сразу видит уменьшение количества клиентских билетов. Но эти цифры все еще ниже уровня ожиданий Тома от команды и суммы денег, которые он вложил в них.

Посоветовавшись со своей финансовой командой, Том приходит к выводу, что для него было бы невозможно поддерживать постоянную оплату этой службы и в то же время быть прибыльным. Кроме того, у него также есть следующие опасения:

Процесс был медленным. Объем данных в Интернете постоянно увеличивался, и на каждую серию из 50 000 отзывов уходил месяц.
Нанятая команда не могла отвечать на динамические запросы Тома о данных. Они могли только представить полученную информацию, любые дальнейшие запросы Тома могли быть приняты во внимание только при обработке следующего пакета данных.
Например, скольким людям не нравится какой-то новый аспект продукта.

В поисках альтернативных решений Том начинает искать системы, которые могли бы работать быстрее и удовлетворять его меняющиеся потребности / запросы. Вскоре Том понял, что решение, которое он искал, должно быть техническим. Только использование вычислительной мощности может помочь периодически обрабатывать сотни тысяч единиц данных и генерировать идеи, которые он ищет, за короткий промежуток времени.

Осознав это, Том нанимает консалтинговую компанию по программному обеспечению, которая может предоставить быстрое решение вдвое быстрее, чем маркетинговое агентство.

Их решение могло:

Статистически подсчитайте, сколько раз упоминались определенные аспекты (данные им Томом).
Предоставьте информационную панель с иллюстрациями этих чисел с течением времени

За кадром это работает следующим образом:

1) Определение слов

Запросы Тома вручную рассматриваются как проблема определения ключевого слова в тексте. Так, например, если Том хочет узнать, сколько раз кто-то говорит о цене продукта, компания-разработчик программного обеспечения пишет программу для поиска в каждом обзоре / текстовой последовательности по термину «цена».

Главный принцип заключается в том, что если слово появляется в тексте, можно предположить, что этот фрагмент текста «о» конкретном слове.

Например. «Мне нравится товар, но он стоит дорого».

2) Создание правил

Этот подход тесно связан с первым. Оба работают по принципу идентификации паттернов, но только предопределенных.

Чаще всего текст - это не просто какое-то конкретное слово. Например, в приведенном выше примере («Мне нравится товар, но он продается по высокой цене») покупатель говорит о своей жалобе на высокую цену, которую ему приходится платить.

Таким образом, существует неотъемлемая необходимость идентифицировать фразы в тексте, поскольку они кажутся более репрезентативными для центральной жалобы. Эти фразы называются правилами.

Любая система, использующая эти шаблонные правила для извлечения аспектов из текста, называется системами на основе правил и имеет следующие преимущества:

Может быть легко понятна людям - маркетинговые команды могут придумывать правила и передавать их команде разработчиков программного обеспечения для их реализации.
Например, Руководитель отдела маркетинга Тома хотел разобраться в любых недовольствах, связанных с размером продукта, поэтому слово «размер продукта» использовалось в качестве ключевой фразы, которая отслеживалась во входящих данных.
Правила настройки довольно просты, поэтому время сокращается.

Следующие 2 принципа долгое время были основными методами текстовой аналитики. Большинство сервисов в этом домене основаны главным образом на создании правил.

Том кажется счастливым. Благодаря этому новому подходу он получил следующие преимущества:

Он получает информацию из огромного количества данных из социальных сетей в потоковом режиме.
Он может отслеживать индивидуальные аспекты, которые, по его мнению, влияют на продукт.

Но, как и в любой хорошей истории, есть загвоздка. Через несколько месяцев Том видит аналогичную тенденцию в увеличении количества заявок. Он не понимает, он уже сделал итерации продукта на основе своего мониторинга отзывов клиентов о ценах, качестве продукта и всех аспектах, которые его команда считала важными.

Обеспокоенный ростом своей компании, Том обращается за советом к ученому НЛП - г-ну С.С. После короткого разговора с СС Том понимает, что все делал неправильно ...

Вы спросите, что он делал не так?

Что ж, в контексте компании Тома входящий поток данных был большим, и природа этих данных быстро менялась. Методам, основанным на правилах, не хватало надежности и гибкости, чтобы соответствовать изменяющемуся характеру этих данных. Г-н С.С. далее объясняет, что, хотя Том отслеживал данные в отношении аспектов, которые он считал красными флажками (например, цены, размер и т. Д.), красные флажки в данных постоянно менялись, и это почти невозможно. двигаться в соответствии с изменяющимися данными с помощью созданных вручную правил.

Технически это были проблемы:

Иногда упоминание слов действительно не указывает на основную тему, вызывающую беспокойство.
Наличие высокой цены не обязательно означает, что покупатель все время жалуется на нее.
Например, «Мне действительно нравится этот продукт, так как он настолько дешев по сравнению с альтернативными вариантами, которые продаются по такой высокой цене».
Различное значение слов затрудняло создание правил.
Люди часто выражают одно и то же мнение разными способами.
Например Хорошая цена - Отличная скидка - Соотношение цена / качество
Эти высказывания указывают на одно и то же, но представляют собой просто разные способы выражения. Учет всех таких случаев становится утомительной задачей, и невозможность сделать это ставит под угрозу точность системы.
Поддерживать набор правил становилось все труднее.
Мы можем думать только о очень многих аспектах, но они могут покрывать только 15–20% всех жалобы клиентов.
И проблема множественности значений указала на необходимость исчерпывающего списка подправил для каждого аспекта.
Вычислительное время, затрачиваемое на обработку каждого отзыва, увеличивалось, поскольку количество правил постоянно увеличивалось.
Если у нас есть 20 правил, это будет означать, что нужно искать каждый новый отзыв. эти 20 правил. По мере увеличения размера набора правил система начинает усложняться в вычислительном отношении и, следовательно, требует больше времени для получения информации.

Том понимает, что видит в данных только то, что ему нужно. На самом деле он не видел того, что должны были показать данные.

Г-н С.С. советует Тому посетить компанию, занимающуюся разработкой глубоких технологий НЛП, и объяснить им свои проблемы. И Том так и делает.

Компания, занимающаяся глубокими технологиями в области искусственного интеллекта, использует возможности машинного обучения и статистики через НЛП. Основная идея вращается вокруг:

Алгоритм машинного обучения, видя ранее классифицированные вручную примеры (обучающие данные), определяет собственные правила (извлеченные модели функций) для категоризации новых примеров. Также известен как контролируемое машинное обучение. Его красота заключается в том, что мы просто кормим его примерами по категориям, и он учится делать все самостоятельно. Точно так же, как человек, после того, как им объяснят работу.
Высокоэффективные способы представления слов, при которых слова не рассматриваются как отдельные объекты, а как облака смыслов, и, следовательно, решают проблему множественных значений слов. Академические исследования показывают, что категоризация текста позволяет достичь почти идеальной точности с помощью НЛП. Алгоритмы глубокого обучения можно рассматривать как следующее поколение алгоритмов машинного обучения, которые учатся делать вещи еще более разумно и могут справляться с задачами намного лучше, чем их предковые алгоритмы машинного обучения.

Таким образом, теперь подходы к НЛП дают Тому следующие преимущества:

Более высокая точность всех выполняемых задач, что делает его надежным и, следовательно, действенным источником.
Никаких правил, созданных вручную, поэтому Том освободил Тома от ручных усилий и потребовал мозгового штурма.
Способность понимать все, теперь Том может понимать тенденции и другие аспекты данных, поступающие из всех каналов, важных для его компании, таких как Zendesk, комментарии в социальных сетях или опросы NPS. Все, что ему нужно сделать, это попросить об этом.
Более глубокое понимание благодаря возможности тщательно отобранных данных, Том также видит подробные сведения, которые лучше отражают сильные и слабые стороны его продукта и услуги. Эти идеи помогают ему быстро понять, как действовать в соответствии с ними, чтобы он мог укрепить столпы, на которых держится его продукт.
Вычислительная свобода. После обучения модели становятся легковесными и, следовательно, сокращают производственную нагрузку по сравнению с подходами, основанными на правилах.
Время, теперь Том наконец-то может сосредоточиться на важных вещах, поскольку он знает, что голос его клиентов доносится до него прозрачно, а не через его собственное цветное зеркало.

Если есть что-то, что вы можете извлечь из истории Тома, так это то, что вам никогда не следует идти на компромисс в отношении краткосрочных, традиционных решений только потому, что они кажутся безопасными. Смелость и доверие к технологиям определенно окупятся как в краткосрочной, так и в долгосрочной перспективе.

Большинство ученых согласятся, что набор данных зачастую более важен, чем сам алгоритм. Мы в Sentisum освоили использование моделей глубокого обучения и обработки ваших данных, чтобы получать информацию для наших клиентов, и мы делаем то же самое не для одной, а для нескольких задач, таких как анализ настроений, извлечение ключевых слов, и многие другие.

Анализ текста и НЛП: любовь с первого взгляда

Таким образом, теперь подходы к НЛП дают Тому следующие преимущества:

Вопросы по теме