Обзор различных задач НЛП, которые можно выполнять в текстовых обзорах для извлечения различной информации с помощью машинного обучения.

Каждый раз, когда мы выражаемся устно или письменно, эти выражения несут много информации. О каких предметах мы говорим, выражаем ли мы мнения или факты, наш выбор слов и т. Д. - все это добавляет некоторую информацию к нашим выражениям и может быть интерпретировано и извлечено для понимания.

Со всем веб-контентом, например, обзоры потребителей и сообщения в социальных сетях, которые у нас есть сегодня, компании теперь имеют доступ к тоннам полезной информации, которая может помочь улучшить их бизнес. Однако в большинстве случаев огромный объем доступных данных невозможно обработать вручную, и поэтому нам нужен способ автоматизировать этот процесс. Это подводит нас к области машинного обучения, называемой обработкой естественного языка или НЛП.

Обработка естественного языка

НЛП - это то, что мы называем большим подполем машинного обучения, который имеет дело с данными в форме естественного языка, как с точки зрения письменного текста, так и с точки зрения речи. Другими словами, НЛП - это подполе машинного обучения, которое дает компьютерам возможность читать, понимать и извлекать значение из человеческих языков. НЛП - одна из наиболее активно исследуемых областей машинного обучения в настоящее время, и в последние годы произошли значительные улучшения наряду с разработками в глубоких нейронных сетях.

Глубокое обучение

Во многих задачах машинного обучения мы используем табличные данные, то есть данные, которые хорошо вписываются в традиционную структуру строк и столбцов. В этих случаях обычно хорошо работают классические модели машинного обучения, такие как регрессия, SVM и модели дерева решений. Однако естественный язык плохо вписывается в типичную структуру строк и столбцов (вместо этого называется неструктурированными данными) и содержит гораздо большую сложность, чем обычные табличные данные.

Чтобы зафиксировать эту огромную сложность данных, нам нужна модель, которая также имеет большую сложность. Таким образом, глубокое обучение стало очень важной частью развития НЛП в последние годы. Модели глубоких нейронных сетей с огромным количеством параметров способны улавливать сложность данных на естественном языке. Помимо недавних крупных моделей НЛП с глубоким обучением, таких как BERT и XLNet, нейронные сети (хотя и не глубокие) также использовались для встраивания слов.

Вложения слов

Мы не можем использовать необработанные текстовые данные так же, как для машинного обучения, поскольку модели машинного обучения имеют дело только с числовыми функциями. Поэтому нам нужно какое-то числовое представление текстовых данных. Предыдущие способы сделать это - горячее кодирование, пакет слов или TF-IDF всех слов в данных. Альтернативный подход, который обычно лучше, - использовать вложения слов.

Это означает, что мы представляем слова в тексте как векторы в большом векторном пространстве. Модели встраивания слов были обучены на очень больших корпусах слов для создания векторного пространства, так что слова, которые имеют общие контексты в учебном корпусе, будут близки друг к другу в векторном пространстве.

Концепция представления слов в математическом векторном пространстве может показаться немного абстрактной, но идея состоит в том, что такие слова, как «яблоко» и «груша» или «красный» и «синий», будут иметь одинаковые векторы слов. Еще одна интересная вещь заключается в том, что мы можем выполнять арифметические операции с этими векторами слов, например:

«Королева» + «Мужчина» - «Женщина» = «Король»

Что мы можем делать с текстовыми отзывами?

После краткого введения в НЛП мы вернемся к введению. Используя различные методы НЛП, теперь можно задаться вопросом, что мы можем сделать, например, с потребительскими текстовыми отзывами о компании. Это то, что мы сейчас рассмотрим.

Мы рассмотрим следующие два примера потребительских текстовых обзоров:

Мы будем использовать их, чтобы проиллюстрировать задачи НЛП, которые мы собираемся рассмотреть.

Однако реальное использование моделей НЛП - это когда они применяются к большому количеству данных. Поэтому мы также рассмотрим некоторые примеры того, чего мы можем достичь, выполняя приведенные ниже задачи на тысячах текстовых обзоров и обобщая результаты.

Хорошо, пора взглянуть на некоторые задачи НЛП, которые мы можем использовать для получения информации из текстовых обзоров.

Классификация тонального текста

Мы начнем с классификации тональности текста, которая представляет собой задачу классификации тональности всего текста как положительной или отрицательной. Для этого нам нужна наша модель классификатора текста НЛП, чтобы обнаруживать слова, которые выражают настроение в тексте. Глядя на первый отзыв

мы хотим, чтобы наша модель обнаруживала слова «отлично», «отлично» и «доволен», все из которых выражают положительное мнение, и, таким образом, классифицирула этот отзыв как положительный. Наш второй обзор выражает как положительные, так и отрицательные настроения.

и здесь не ясно, положительный отзыв или отрицательный. Кто-то может возразить, что текст положительный, потому что «действительно полезно» сильнее, чем «скорее сложно», с чем вполне может согласиться классификатор тональности текста НЛП. Другой вариант - расширить проблему, чтобы не только иметь два класса положительный и отрицательный, но также включить такие классы, как нейтральный и / или конфликт. Однако это приводит к более сложной проблеме классификации нескольких классов.

Сводные результаты

Если бы мы классифицировали настроения тысяч отзывов о компании, мы могли бы получить представление об общем мнении о компании. Нравится или не нравится людям эта компания в целом и, возможно, со временем она изменится? Включая временной аспект и классифицируя все обзоры компании за каждый месяц, мы могли бы получить такой результат:

Возможно, это компания-разработчик программного обеспечения, которая в конце сентября выпустила новое обновление своей программы, которое было полно ошибок, что привело к множеству негативных отзывов в октябре и ноябре, прежде чем им удалось исправить их и вернуться к большинству положительных отзывов. снова в декабре и вперед. Однако, если результаты для компании выглядят так:

там, где у нас есть четкая тенденция к увеличению негативных настроений со стороны потребителей, эта компания, вероятно, обнаружила в своем анализе классификации текстов указание на то, что им нужно что-то делать, чтобы улучшить общественное мнение о своей компании.

Извлечение аспектов

Далее мы рассмотрим извлечение аспектов. Извлечение аспектов означает, что мы хотим найти аспекты, которые затрагиваются в тексте.

Первый пример обзора касается как программного обеспечения, так и службы, а наш второй обзор касается веб-сайта, а также поддержки клиентов. .

Сводные результаты

Давайте рассмотрим компанию, продающую потребительские товары, и что у этой компании есть веб-сайт, на котором потребители могут писать отзывы. Эти потребительские отзывы, вероятно, будут затем использоваться другими возможными покупателями, когда они попытаются выяснить, какие продукты они хотят купить.

Теперь, если вы, например, хотите купить новый телефон, в нем могут быть некоторые особенности, которые лично для вас более интересны, чем другие. Возможно, для вас очень важны аккумулятор и камера, но вас не слишком заботит цена или размер телефона. Поэтому вас могут интересовать только обзоры с упоминанием аккумулятора или камеры.

Имея модель извлечения аспектов НЛП, мы можем применить ее к отзывам потребителей. Если мы остановимся на примере телефона, мы могли бы извлечь аспект во всех обзорах, например, iPhone 11. Затем мы можем пометить все отзывы аспектами, которые мы извлекаем из текста, и, если мы затем объединим это по всем отзывам, мы сможем получить список наиболее часто упоминаемых аспектов в обзорах. Для iPhone 11 мы можем получить следующий список:

«Камера», «Батарея», «Экран», «iOS», «Размер», «Зарядное устройство», «Кнопка», «Дисплей»

Затем клиентам, читающим обзоры, может быть предоставлена ​​возможность выбрать один из этих аспектов и увидеть только те отзывы, которые были помечены выбранным аспектом. Покупатель мог выбрать только отзывы о батарее:

а может быть все отзывы о фотоаппарате:

Эта функция действительно существует сегодня на веб-сайте Amazon, но она интересна практически всем компаниям, продающим потребительские товары, а также, возможно, другим компаниям с некоторыми модификациями.

Анализ мнений на основе аспектов

Мы переходим к следующей задаче, которая представляет собой анализ мнений на основе аспектов, также называемый анализом настроений на основе аспектов. Мы можем рассматривать это как комбинацию двух наших предыдущих задач. Мы помним, что наш второй пример обзора выражал как положительные, так и отрицательные настроения. В частности, автору обзора не понравился веб-сайт, но он остался доволен поддержкой клиентов.

При анализе мнений на основе аспектов мы не пытаемся найти общую настройку всего текста, а вместо этого пытаемся найти отношение к каждому аспекту, упомянутому в тексте. Мы хотели бы, чтобы наша модель анализа мнений выявляла отрицательные настроения к веб-сайту и положительные к службе поддержки клиентов.

Даже если все мнения, выраженные в первом обзоре, являются положительными, гораздо полезнее знать, что эти положительные отзывы касаются программного обеспечения и услуг, чем просто знать, что отзыв положительный.

Сводные результаты

Теперь мы посмотрим, что можно сделать с анализом мнений на основе аспектов, когда мы применим его к множеству обзоров компании, а не только к одному. С помощью классификации текстов настроений мы увидели, что можем получить представление об общих настроениях по отношению к компании. С помощью анализа мнений на основе аспектов мы сделаем еще один шаг и узнаем мнения потребителей по определенным аспектам бизнеса компании.

Если бы мы сделали это, например, компания, продающая телефоны, компьютеры и другие электронные товары в Интернете и отображающая в своих обзорах только наиболее упоминаемые аспекты аспектов, мы можем получить следующие результаты:

Это, конечно, дает гораздо больше информации, чем просто классификация всего обзора как положительного или отрицательного. Что больше всего беспокоит потребителей, так это доставка, которая в данном случае имеет в основном положительные отзывы. Аспекты, которые, по-видимому, менее удовлетворяют клиентов, - это цена, компьютеры и, возможно, также гарантии. Возможно, пришло время пересмотреть политику ценообразования и гарантии, а также пересмотреть ассортимент продукции для компьютеров.

В зависимости от типа используемой модели анализа мнений, основанной на аспектах, можно также извлечь слова мнения, относящиеся к различным аспектам. Часто высказываемые мнения о «доставке» могут быть

Эти слова-мнения предоставляют нам еще больше информации и, возможно, полезные идеи.

Признание именной организации

Последняя задача НЛП, которую мы представим, называется распознавание сущностей. Чтобы лучше проиллюстрировать эту задачу, мы оставим наши примеры отзывов потребителей и вместо этого рассмотрим следующее предложение:

При распознавании именованных сущностей мы хотели бы, чтобы наша модель НЛП определяла различные типы сущностей в тексте, например, имена, местоположения, даты, организации, выражения времени, денежные значения и проценты. Итак, в тексте выше мы хотим найти следующие сущности с соответствующими тегами:

Сводные результаты

Наконец, мы рассмотрим вариант использования распознавания именованных сущностей в связи с отзывами клиентов, а именно, как его можно использовать для упрощения процесса обработки отзывов клиентов.

Представьте компанию, продающую широкий ассортимент товаров в нескольких магазинах в разных местах. Многие отзывы покупателей об этой компании могут быть связаны с каким-то конкретным магазином и, возможно, также с конкретным продуктом. Чтобы иметь дело с поддержкой клиентов и улучшать свой бизнес, используя отзывы клиентов из обзоров, представляет интерес рассылать отзывы в магазины и отделы продуктов, которые касаются обратной связи, без того, чтобы кто-то сначала читал отзывы.

Чтобы сделать эту категоризацию текстов обзора автоматически, можно использовать распознавание именованных сущностей. Применяя модель распознавания именованных сущностей к текстам отзывов клиентов компании, мы можем идентифицировать такие сущности, как страны, города и названия продуктов, чтобы автоматически классифицировать тысячи отзывов, чтобы разные магазины получали отзывы, относящиеся только к ним.

Давайте посмотрим на пару примеров обзоров. Путем нахождения объектов местоположения в следующем обзоре с использованием распознавания именованных объектов:

он может быть автоматически отнесен к категории магазина компании в Париже, в то время как приведенный ниже обзор должен быть отнесен к магазину в Лондоне и, возможно, также направлен в раздел магазина, работающий с игровыми консолями.

Возможность автоматизировать эту категоризацию тысяч отзывов значительно упрощает процесс обработки отзывов клиентов.

Вывод

Помимо представления НЛП и связанных с ним концепций, в этом блоге мы рассмотрели некоторые вещи, которые мы можем сделать с текстовым обзором с использованием моделей НЛП, чтобы извлечь различные виды информации. Однако простой просмотр одного обзора дает нам очень мало информации и может быть выполнен быстро самостоятельно. Что интересно, это когда мы выполняем этот тип задач на тысячах текстовых обзоров и суммируем результаты. Именно тогда модели машинного обучения НЛП становятся действительно полезными и позволяют нам получать идеи, которые мы не смогли сделать эффективно в одиночку. Вот почему мы также рассмотрели несколько примеров того, чего мы можем достичь, выполняя эти задачи на тысячах отзывов, а не на одном.

Эти варианты использования, которые мы здесь представили, конечно, являются лишь некоторыми примерами того, что можно сделать с отзывами потребителей, и, используя другие типы текстовых источников данных, кроме обзоров, мы можем делать много других вещей, используя модели НЛП. Возможности безграничны.