K означает кластеризацию текстовых данных

Требуется обучение кластеризации? Обзор курсов, разработанный лидерами отрасли и Experfy в Harvard Innovation Lab.

Кластеризация / сегментация - один из наиболее важных методов, используемых в Acquisition Analytics. K означает кластеризацию, объединяющую похожие наблюдения в кластеры, чтобы иметь возможность извлекать информацию из огромных объемов неструктурированных данных.

Когда вы хотите проанализировать комментарии Facebook / Twitter / Youtube к определенному событию, было бы невозможно вручную просмотреть каждое упоминание и увидеть, в чем заключается мнение о конкретном бренде / событии / человеке.

Основная идея кластеризации K-средних состоит в том, чтобы сначала сформировать K начальных значений, а затем сгруппировать наблюдения в K кластеров на основе расстояния до каждого из K начальных значений. Наблюдение будет включено в nthseed / cluster, если расстояние между наблюдением и n-м семенем будет минимальным по сравнению с другими семенами.

Ниже приводится краткий обзор методологии, используемой для выполнения кластерного анализа K-средних.

Процесс построения K кластеров на текстовых данных социальных сетей:

Первый шаг - получить упоминания в социальных сетях за определенный период времени с помощью инструментов прослушивания социальных сетей (Radian 6, Sysmos, Synthesio и т. Д.). Вам нужно будет создать запрос / добавить ключевые слова для извлечения данных из инструментов прослушивания социальных сетей.
Следующий шаг - очистка данных. Это самая важная часть, поскольку комментарии в социальных сетях не имеют определенного формата. Люди используют местные жители / сленг и т. Д. В социальных сетях, чтобы выражать свои эмоции, поэтому важно уметь видеть сквозь них и понимать лежащие в основе настроения.
Удалите знаки препинания, числа, игнорируемые слова (в R есть специальная библиотека игнорируемых слов, но вы также можете создать свой собственный список игнорируемых слов). Также удалите повторяющиеся строки или URL-адреса из упоминаний в социальных сетях.
Следующим шагом будет создание вектора корпуса всех слов.
После того, как вы создали вектор корпуса слов, следующим шагом будет создание матрицы терминов документа.

Давайте наглядно представим проблему на одном примере. Предположим, есть 10 документов / упоминаний и 5 уникальных слов для очистки пост-данных. Ниже приведена матрица терминов документа для этого набора данных. Он показывает, сколько раз одно слово появилось в документе. Например, в документе 1 (D1) слова онлайн, книга и Дели были упомянуты по одному разу.

Предположим, мы хотим создать K = 3 кластера. Сначала следует выбрать три семени. Предположим, что D2, D5 и D7 выбраны в качестве начальных трех семян.
Следующий шаг - вычислить евклидово расстояние других документов от D2, D5 и D7.
Предположим: U = Online, V = Festival, X = Book, Y = Flight, Z = Delhi. Тогда евклидово расстояние между D1 и D2 будет:
((U1-U2)² + (W1-W2)²+(X1-X2)²+ (Y1-Y2)²+(Z1-Z2)² )⁰.5

Таким образом, 10 документов перемещены в 3 разных кластера. Вместо центроидов формируются медоиды, и снова пересчитываются расстояния, чтобы гарантировать, что документы, которые ближе к медоиду, относятся к тому же кластеру.
Медоиды используются для построения истории для каждого кластера.

Но остается еще один важный вопрос: как выбрать оптимальное количество кластеров?

Один из подходов - использовать метод локтя для выбора оптимального количества кластеров. Это основано на построении функции стоимости для различного количества кластеров и определении точек останова. Если добавление дополнительных кластеров не приводит к значительному уменьшению дисперсии внутри кластера, следует прекратить добавление дополнительных кластеров. Хотя этот метод не может дать вам оптимальное количество кластеров в качестве точной точки, он может дать вам оптимальный диапазон.

Мадукар имеет более чем 10-летний опыт работы в сфере аналитики. В течение десяти лет он оказывал консультационные услуги по аналитике в Великобритании, США, Канаде, Европе и Австралии, а в прошлом работал в уважаемых корпорациях, таких как American Express и GE Money.

Первоначально опубликовано на www.experfy.com.

K означает кластеризацию текстовых данных

K означает кластеризацию текстовых данных

Процесс построения K кластеров на текстовых данных социальных сетей:

Вопросы по теме