Пакет слов (BOW) и частота терминов и частота обратного документа (TFIDF) используются для преобразования текстовых данных в векторные или числовые данные.

Для ясного понимания давайте возьмем простой пример, предположим, что у вас есть набор данных, который содержит текстовый объект или столбец. Если вы хотите обучить модели машинного обучения, такие как логистическая регрессия или SVM и т. Д., На вышеуказанном наборе данных, мы получим ошибку, потому что они понимают только числовые данные, а не текстовые данные, для которых мы должны преобразовать текстовые данные в векторную форму.

Для преобразования текстовых данных в числовую форму мы используем простые методы, такие как BOW, TFIDF, Word2Vec и TFIDF-w2v. В этом блоге я расскажу о BOW и TFIDF.

Мешок слов(ЛУК)

Возьмем простой пример: я беру 2 отзыва с сайта электронной коммерции.

Шаг 1: Возьмите уникальные слова из обоих обзоров. то есть

Это, очень, хороший, мобильный, телефон, для, андроид, пользователей, но дорого, дешево, не уникальные слова.

Шаг 2: - Посмотрите на шаг выше: мы взяли уникальные слова, а не все слова, теперь каждое уникальное слово станет одной функцией / столбцом в наборе данных, как показано ниже.

То, как я вставляю 0 и 1 в каждую характеристику слова, заключается в том, что предположим, что если слово встречается в этом обзоре, то 1, в противном случае 0. Если слово встречается в обзоре более 1 раза, тогда вставьте это число вместо 1.

Теперь вы можете обучать свои модели машинного обучения, используя этот набор данных, поскольку он имеет числовую форму.

Частота термина и обратная частота документа (TFIDF)

TFIDF более полезен, чем BOW, потому что он придает значение как часто встречающимся, так и редким словам. Все обзоры в наборе данных называются документом или корпусом.

Сначала мы вычисляем частоту термина, затем IDF

Частота термина (TF) = количество раз, когда слово встречается в обзоре/общее количество слов в обзоре

IDF = log(В скольких обзорах присутствует это слово/ Общее количество обзоров в корпусе)

TFIDF = TF * IDF

Здесь также мы возьмем уникальные слова, но вместо 0 и 1 заменим каждое слово значением tf-idf.

Спасибо за чтение, если вы хотите, вы также можете использовать технику word2vec.