Публикации по теме nlp

Публикации по теме 'nlp'

Введение в обработку естественного языка

Обработка естественного языка (NLP) — это область информатики, которая фокусируется на программировании компьютера для обработки данных на естественном языке. В некотором смысле мы можем рассматривать НЛП как непрерывные занятия, которые обучают компьютеры человеческому языку. Цель НЛП — помочь машинам понимать человеческие языки посредством устного или письменного общения. Какие типы или процессы есть в НЛП? НЛП позволяет и поощряет машины выполнять автоматизированную речь и..

Интуиция встраивания слов #NLP

Встраивание слов — это просто присвоение числового значения (значений) каждому слову в некотором словаре. Поскольку почти каждый алгоритм в машинном обучении (кроме случайных деревьев) нуждается в числовых входных данных, поэтому ввод слов в качестве входных данных невозможен, некоторые библиотеки Python включают кодировки в свои пакеты, чтобы упростить процесс для пользователей. Допустим, у нас есть предложение: «Кто выпустил собак» (без «ху-ху», ха-ха). чтобы обработать это, мы должны..

TF — Векторизация IDF

В реальном мире есть много случаев, когда нам нужно работать с текстовыми данными, но основная проблема заключается в том, что алгоритмы машинного обучения напрямую не могут понимать необработанные текстовые данные, поэтому мы должны преобразовать текстовые данные в числа, особенно в векторы. чисел. Для решения этой проблемы существует множество методологий, но в этом блоге я расскажу о векторизации TF-IDF. Введение TF-IDF означает Частота термина – обратная частота документа ...

CountVectorizer в Python

Векторизатор счетчика Чтобы использовать текстовые данные для прогнозного моделирования, текст должен быть проанализирован для удаления определенных слов — этот процесс называется токенизацией . Затем эти слова должны быть закодированы как целые числа или значения с плавающей запятой для использования в качестве входных данных в алгоритмах машинного обучения. Этот процесс называется извлечение признаков (или векторизация) . Scikit-learn CountVectorizer используется для..

Обработка естественного языка для начинающих: простая иллюстрация в Python

Часть III: Моделирование с помощью текста Введение В первой части этой серии мы продемонстрировали, как собирать текстовые данные, на примере Reddit API. Во Части II мы исследовали текстовые данные и предварительно обработали их для этапа моделирования. Здесь мы будем использовать классификатор в Sckit-Learn для моделирования данных. Извлечение признаков Нам нужно перейти от неструктурированных текстовых данных к числовому n-мерному признаку X , который затем будет использоваться..

POS Tagger для африканского языка

Как мы создали первый в мире классификатор LSTM для языка Йемба. В этой статье мы реализуем сеть LSTM для прогнозирования вероятности появления следующего символа в последовательности на основе символов, уже наблюдаемых в последовательности. Мы создаем первый в истории классификатор слов африканского языка на основе LSTM, Йемба . Никакие границы не могут остановить LSTM. Трансформеры, может быть. Йемба язык Нашими последовательностями будут слова из не столь популярного языка,..

Ты понимаешь это?

Введение в обработку естественного языка Понимание языка начинается с проверки словаря Сегодня я случайно пролистал Оксфордский словарь английского языка, пытаясь свести язык к «первому принципу». Сначала я проверил то, что ребенок, вероятно, узнает в возрасте 3 лет - значение «хорошо» - «быть желанным или одобренным». Сделав вид, что не понимает, что такое «желание», я проверил еще раз - «Сильно желаю или чего-то хочу». Опять же, что такое «желание»? «Почувствуйте..