Публикации по теме 'nlp'
Введение в обработку естественного языка
Обработка естественного языка (NLP) — это область информатики, которая фокусируется на программировании компьютера для обработки данных на естественном языке. В некотором смысле мы можем рассматривать НЛП как непрерывные занятия, которые обучают компьютеры человеческому языку. Цель НЛП — помочь машинам понимать человеческие языки посредством устного или письменного общения.
Какие типы или процессы есть в НЛП?
НЛП позволяет и поощряет машины выполнять автоматизированную речь и..
Интуиция встраивания слов #NLP
Встраивание слов — это просто присвоение числового значения (значений) каждому слову в некотором словаре. Поскольку почти каждый алгоритм в машинном обучении (кроме случайных деревьев) нуждается в числовых входных данных, поэтому ввод слов в качестве входных данных невозможен, некоторые библиотеки Python включают кодировки в свои пакеты, чтобы упростить процесс для пользователей.
Допустим, у нас есть предложение: «Кто выпустил собак» (без «ху-ху», ха-ха).
чтобы обработать это, мы должны..
TF — Векторизация IDF
В реальном мире есть много случаев, когда нам нужно работать с текстовыми данными, но основная проблема заключается в том, что алгоритмы машинного обучения напрямую не могут понимать необработанные текстовые данные, поэтому мы должны преобразовать текстовые данные в числа, особенно в векторы. чисел.
Для решения этой проблемы существует множество методологий, но в этом блоге я расскажу о векторизации TF-IDF.
Введение
TF-IDF означает Частота термина – обратная частота документа ...
CountVectorizer в Python
Векторизатор счетчика
Чтобы использовать текстовые данные для прогнозного моделирования, текст должен быть проанализирован для удаления определенных слов — этот процесс называется токенизацией . Затем эти слова должны быть закодированы как целые числа или значения с плавающей запятой для использования в качестве входных данных в алгоритмах машинного обучения. Этот процесс называется извлечение признаков (или векторизация) .
Scikit-learn CountVectorizer используется для..
Обработка естественного языка для начинающих: простая иллюстрация в Python
Часть III: Моделирование с помощью текста
Введение
В первой части этой серии мы продемонстрировали, как собирать текстовые данные, на примере Reddit API. Во Части II мы исследовали текстовые данные и предварительно обработали их для этапа моделирования. Здесь мы будем использовать классификатор в Sckit-Learn для моделирования данных.
Извлечение признаков
Нам нужно перейти от неструктурированных текстовых данных к числовому n-мерному признаку X , который затем будет использоваться..
POS Tagger для африканского языка
Как мы создали первый в мире классификатор LSTM для языка Йемба.
В этой статье мы реализуем сеть LSTM для прогнозирования вероятности появления следующего символа в последовательности на основе символов, уже наблюдаемых в последовательности.
Мы создаем первый в истории классификатор слов африканского языка на основе LSTM, Йемба . Никакие границы не могут остановить LSTM. Трансформеры, может быть.
Йемба язык
Нашими последовательностями будут слова из не столь популярного языка,..
Ты понимаешь это?
Введение в обработку естественного языка
Понимание языка начинается с проверки словаря
Сегодня я случайно пролистал Оксфордский словарь английского языка, пытаясь свести язык к «первому принципу».
Сначала я проверил то, что ребенок, вероятно, узнает в возрасте 3 лет - значение «хорошо» - «быть желанным или одобренным».
Сделав вид, что не понимает, что такое «желание», я проверил еще раз - «Сильно желаю или чего-то хочу».
Опять же, что такое «желание»? «Почувствуйте..