Используется много различных типов интеллектуального анализа текста. Эта статья посвящена построению модели классификации с использованием текста, такого как твиты, короткие статьи или обзоры ресторанов / продуктов / фильмов. Эти короткие фрагменты текста будут иметь такие обозначения, как положительное или отрицательное мнение. Первый подход к построению классификационной модели из слов - использовать модель мешка слов / униграмм. Чтобы преобразовать тексты в набор слов, сначала вы создаете вектор всех слов, входящих во весь набор текста в обучающем наборе. Затем вы перебираете каждый текст в обучающем наборе и отмечаете 1 в векторе-строке, соответствующем содержащемуся в нем слову. Например:

Тексты:

T1: Еда была ужасной, я ее ненавидел. (7 слов)

T2: Ресторан был очень далеко, я его ненавидел. (9 слов)

T3: Паста была восхитительной, вернусь снова. (8 слов)

(Производный корпус): | еда | был | ужасно | Я | ненавидел | это | ресторан | очень | далеко | прочь | макаронные изделия | вкусно | будет | приходи | назад | снова (17 слов)

T1 Вектор: 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0

T2 Вектор: 1 0 1 0 1 1 1 1 1 1 1 0 0 0 0 0 0

T3 Вектор: 1 0 1 0 0 0 0 0 0 0 0 1 1 1 1 1 1

Этот короткий пример должен помочь вам визуализировать модель мешка слов и проблему с этим подходом. Как видите, набор функций становится чрезвычайно большим и редким. Чтобы уменьшить размер признаков, чтобы увеличить скорость вычислений и производительность моделей классификации, в мешке моделей слов было использовано несколько методов выбора признаков.

В этой статье будут обсуждаться методы на основе фильтров, а не выбор функций на основе оболочки. Некоторые из фильтров, используемых для ранжирования функций, - это критерий хи-квадрат, взаимная информация, сигнал-шум и площадь под кривой характеристики принимающего оператора (ROC). Функции ранжируются в соответствии с этими тестами, а затем для построения моделей выбираются различные подмножества функций. Например, если у вас изначально есть 2500 функций (слов в корпусе), вы можете выбрать что-то вроде 100, 150, 200 или 250 функций из набора функций для использования в результирующей модели.

Надеюсь, эта статья даст вам больше информации о методах интеллектуального анализа текста с моделями классификации, спасибо за чтение!