Векторизация — это сопоставление словарных слов или токенов из набора данных с соответствующим вектором действительных чисел. Эти векторы используются в качестве входных данных для моделей машинного обучения (ML). Сейчас более современные подходы к встраиванию Word используются для выполнения большей части последующих задач НЛП. В этом посте мы рассмотрим подходы к векторизации текста до встраивания слов.

Статистический подход к векторизации

До эпохи встраивания слов подходы, основанные на статистической векторизации слов, такие как подсчет совпадений слов, весовая матрица, использовались для извлечения признаков из текста для последующего использования в качестве входных данных для алгоритмов машинного обучения (Turney, PD, & Pantel, P. 2010).

1. однократное кодирование

В таблице 1 представлен способ представления каждого уникального слова в словаре путем установки уникального токена со значением 1 и остатком 0 в других позициях вектора.

Пример
Отправлено. 1: Они играют в футбол.
Отправлено. 2: Они играют в крикет.
Вокаб.: [Они, играют, футбол, крикет]

Недостатком Размера вектора является количество уникальных слов в словаре. 1 — Горячее кодирование упускает связи между словами и не передает информацию о контексте.

2. Мешок слов (BoW)

BoW — это метод векторизации, который преобразует текстовое содержимое в векторы числовых признаков (P.D. Turney, 2002). Модель BoW хранит количество слов, относящихся к документу, в котором он произошел, здесь каждый вектор действует как столбец признаков для модели ML. Таблица 2. демонстрирует пример функций для каждого документа.

Пример
D1: они играют в футбол.
D2: они играют в крикет.

Недостатком BoW является то, что он не сохраняет порядок слов и не позволяет делать полезные выводы для последующих задач НЛП.

3. N-грамм

n-grams считает последовательность из n слов в тексте; где n равно (1,2,3..) пример 1-грамм, 2-грамм. для пары токенов. В отличие от BoW, n-gram поддерживает порядок слов.

Пример: пловец плывет в бассейне.
Unigram (1 грамм): A , пловец , есть , плавание , в , плавание , бассейн ……< br /> Биграмма (2-грамма): Пловец, пловец есть, плывет, плывет ………
Триграмма (3-грамма): Пловец есть, пловец плывет, плывет………

Недостаток n-gram в том, что у него слишком много возможностей. Набор функций становится слишком скудным и требует больших вычислительных ресурсов.

4. Частота термина, обратная частоте документа (TF-idf)

TF-idf придает больший вес редко встречающимся событиям и меньший вес ожидаемым событиям. TF-idf наказывает часто встречающиеся слова, которые часто появляются в документе, такие как «the», «is», но присваивает больший вес менее частым или редким словам.

Формула
TF(t) = частота токена t в документе d / количество всех слов в документе d
idf(t) = log(Общее количество документов / Номер документа с токеном t)

Произведение TF x idf слова показывает, как часто токен (t) встречается в документе и насколько этот токен уникален для всего корпуса документов.

5. Точечная взаимная информация (PMI)

PMI обычно идентифицирует парный шаблон в тексте (Turney, PD, & Pantel, P. 2010). Формула: количество вхождений (слово1 и слово2) / количество (слово1) * количество (слово2))

Пример:предположим,в документе слово1 (автомобиль) и слово2 (машина) могут иметь меньшую вероятность. И наоборот, пара слов, вероятность появления которых значительно выше, чем вероятность их совместного появления, получает небольшой балл PMI, такой как слово1 (что) и слово2 (есть).

Все эти подходы, которые мы видели здесь, страдают проблемой разреженности векторов и, как следствие, не обрабатывают сложные отношения слов и не могут моделировать длинные последовательности текста.
В следующем посте мы попробуем рассмотреть современные методы векторизации текста.

Ссылка на ОБНОВЛЕНИЕ:Внедрение Word: векторизация текста New Age в НЛП