PerleyML Сумка слов

Пакет слов (BOW) часто используется в машинном обучении. Его можно использовать для преобразования изображений или текстовых данных, например, в числовые данные, которые может понять нейронная сеть или алгоритм. В настоящее время в PerleyML есть возможность преобразовывать строки в их числовое представление, чтобы затем мы могли их кластеризовать и классифицировать.

Как вы можете видеть выше, создать пакет слов очень легко и просто. Пользователь передает символы, которые он хочет отфильтровать, а класс позаботится обо всем остальном. Он выводит словарь, содержащий записи со словом и количеством использованных раз в наборе данных. Оттуда набор данных можно разбить на зубчатый int[] (целочисленный массив).

Выше вы можете увидеть данные из Bag of Words, используемые классом KMeans и KNN. В этом примере я складываю каждый элемент, который затем добавляется в список под названием wordCounts, затем, например, мы делим nval(wordCount) на длину количества возможных слов. Это дает нам наши значения x и y. Затем их можно легко передать в алгоритмы кластера.

На самом деле в мешке слов больше нет ничего. Как указывалось ранее, в настоящее время он принимает только строковые данные, но в будущем планируется изменить это.

*Эта статья будет обновляться.*

PerleyML Сумка слов

Вопросы по теме