K означает кластеризацию текстовых данных

Требуется обучение кластеризации? Обзор курсов, разработанный лидерами отрасли и Experfy в Harvard Innovation Lab.

Кластеризация / сегментация - один из наиболее важных методов, используемых в Acquisition Analytics. K означает кластеризацию, объединяющую похожие наблюдения в кластеры, чтобы иметь возможность извлекать информацию из огромных объемов неструктурированных данных.

Когда вы хотите проанализировать комментарии Facebook / Twitter / Youtube к определенному событию, было бы невозможно вручную просмотреть каждое упоминание и увидеть, в чем заключается мнение о конкретном бренде / событии / человеке.

  • Основная идея кластеризации K-средних состоит в том, чтобы сначала сформировать K начальных значений, а затем сгруппировать наблюдения в K кластеров на основе расстояния до каждого из K начальных значений. Наблюдение будет включено в nthseed / cluster, если расстояние между наблюдением и n-м семенем будет минимальным по сравнению с другими семенами.

Ниже приводится краткий обзор методологии, используемой для выполнения кластерного анализа K-средних.

Процесс построения K кластеров на текстовых данных социальных сетей:

  • Первый шаг - получить упоминания в социальных сетях за определенный период времени с помощью инструментов прослушивания социальных сетей (Radian 6, Sysmos, Synthesio и т. Д.). Вам нужно будет создать запрос / добавить ключевые слова для извлечения данных из инструментов прослушивания социальных сетей.
  • Следующий шаг - очистка данных. Это самая важная часть, поскольку комментарии в социальных сетях не имеют определенного формата. Люди используют местные жители / сленг и т. Д. В социальных сетях, чтобы выражать свои эмоции, поэтому важно уметь видеть сквозь них и понимать лежащие в основе настроения.
  • Удалите знаки препинания, числа, игнорируемые слова (в R есть специальная библиотека игнорируемых слов, но вы также можете создать свой собственный список игнорируемых слов). Также удалите повторяющиеся строки или URL-адреса из упоминаний в социальных сетях.
  • Следующим шагом будет создание вектора корпуса всех слов.
  • После того, как вы создали вектор корпуса слов, следующим шагом будет создание матрицы терминов документа.

Давайте наглядно представим проблему на одном примере. Предположим, есть 10 документов / упоминаний и 5 уникальных слов для очистки пост-данных. Ниже приведена матрица терминов документа для этого набора данных. Он показывает, сколько раз одно слово появилось в документе. Например, в документе 1 (D1) слова онлайн, книга и Дели были упомянуты по одному разу.

  • Предположим, мы хотим создать K = 3 кластера. Сначала следует выбрать три семени. Предположим, что D2, D5 и D7 выбраны в качестве начальных трех семян.
  • Следующий шаг - вычислить евклидово расстояние других документов от D2, D5 и D7.
  • Предположим: U = Online, V = Festival, X = Book, Y = Flight, Z = Delhi. Тогда евклидово расстояние между D1 и D2 будет:
  • ((U1-U2)² + (W1-W2)²+(X1-X2)²+ (Y1-Y2)²+(Z1-Z2)² )⁰.5

  • Таким образом, 10 документов перемещены в 3 разных кластера. Вместо центроидов формируются медоиды, и снова пересчитываются расстояния, чтобы гарантировать, что документы, которые ближе к медоиду, относятся к тому же кластеру.
  • Медоиды используются для построения истории для каждого кластера.

Но остается еще один важный вопрос: как выбрать оптимальное количество кластеров?

Один из подходов - использовать метод локтя для выбора оптимального количества кластеров. Это основано на построении функции стоимости для различного количества кластеров и определении точек останова. Если добавление дополнительных кластеров не приводит к значительному уменьшению дисперсии внутри кластера, следует прекратить добавление дополнительных кластеров. Хотя этот метод не может дать вам оптимальное количество кластеров в качестве точной точки, он может дать вам оптимальный диапазон.

Мадукар имеет более чем 10-летний опыт работы в сфере аналитики. В течение десяти лет он оказывал консультационные услуги по аналитике в Великобритании, США, Канаде, Европе и Австралии, а в прошлом работал в уважаемых корпорациях, таких как American Express и GE Money.

Первоначально опубликовано на www.experfy.com.