Публикации по теме 'lemmatization'


Все о НЛП-2
Как работает НЛП? Используя векторизацию текста, инструменты НЛП преобразуют текст в то, что может понять машина. Затем алгоритмы машинного обучения передаются к обучающим данным и ожидаемым результатам (тегам), чтобы обучать машины устанавливать ассоциации между конкретным входом и соответствующим ему выходом. Затем машины используют методы статистического анализа для создания своего собственного «банка знаний» и определяют, какие функции лучше всего представляют тексты, прежде чем..

НЛП разблокировано: лемматизация #003
НЛП на свободе: раскрытие возможностей обработки естественного языка. В первых двух блогах этой серии мы рассмотрели основы обработки естественного языка (NLP) и способы предварительной обработки текстовых данных для дальнейшего анализа. Мы узнали о токенизации, которая представляет собой процесс разбиения текста на отдельные слова или фразы, и о стемминге, который представляет собой процесс приведения слов к их корневой форме. В этом блоге мы собираемся глубже погрузиться в другой..

Введение в стемминг и лемматизацию (НЛП)
Полное исследование стемминга и лемматизации, а также того, какая техника используется в различных задачах обработки естественного языка. Обработка естественного языка — одна из самых быстрорастущих областей в мире. НЛП проникает в ряд продуктов и услуг, которые мы используем в повседневной жизни. Наиболее важными этапами конвейера НЛП являются обработка и очистка текста, включая стемминг и лемматизацию . Обработка естественного языка (NLP) Текстовые данные могут поступать из..

Вопросы по теме 'lemmatization'

Как используется морфа-лемматизатор?
Я собираюсь использовать SQL-версию WordNet, и у меня проблема с поиском способа лемматизировать слова, чтобы найти их в БД; Я не могу использовать сам лемматизатор WordNet, потому что он применяется к текстовой версии WorldNet. Я читал здесь, что...
2130 просмотров
schedule 03.05.2022

В чем разница между лемматизацией и стеммингом?
Когда я использую каждый из них? Кроме того ... зависит ли лемматизация NLTK от частей речи? Разве не было бы точнее, если бы это было так?
101918 просмотров
schedule 24.08.2022

ошибка импорта для совместимости в NLTK и использования BrowServer для просмотра базы данных NLTK Wordnet для лемматизации
Расширение для варианта использования - лемматизация слов NLTK У меня на компьютере установлен nltk (со всеми модулями и корпусом из книги). Мой вариант использования - изучить и сопоставить некоторые подходы к лемматизации и стеммингу для...
3389 просмотров

Лемматизация запросов Solr/Lucene с контекстом
Я успешно реализовал чешский лемматизатор для Lucene. Я тестирую его с помощью Solr, и он хорошо работает в индексное время. Но это не так хорошо работает при использовании для запросов, потому что анализатор запросов не предоставляет лемматизатору...
751 просмотров

Реализация Word2Vec на языках, отличных от английского?
Можно ли реализовать модели Word2Vec на языках, не основанных на английском алфавите, таких как урду, тамильский и т. д.? Если это так, может кто-нибудь предложить мне путь.
1349 просмотров
schedule 22.12.2022

Почему NLTK Lemmatizer не может лемматизировать некоторые слова во множественном числе?
Я пытался лемматизировать слова из Священной Книги Корана, но некоторые слова не могут быть лемматизированы. вот моя фраза: sentence = "Then bring ten surahs like it that have been invented and call upon for assistance whomever you can besides...
1555 просмотров
schedule 13.08.2022

Проблема / согласованность пространственного лемматизатора
В настоящее время я использую spaCy для целей НЛП (в основном лемматизация и токенизация). Используемая модель - en-core-web-sm (2.1.0). Следующий код запускается для получения списка слов «очищено» из запроса. import spacy nlp =...
1389 просмотров
schedule 01.05.2022

Как мне написать функцию, которая использует несколько операторов if, где каждый оператор будет изменять слово одно за другим?
Я пытаюсь написать функцию, которая будет изменять помеченное слово в зависимости от тегов, присутствующих в слове, так что в основном это лемматизатор, но для слов на шведском языке. Например, если слово было помечено буквой A, оно удалит...
35 просмотров
schedule 04.07.2023

Фильтрация значений в строке по значению другого столбца
Я хотел бы создать список конкретных отрицательных слов для трех разных ярлыков в моих данных обучения. слово должно появляться только для определенного ярлыка, а не для трех. У меня есть фреймворк с 3 столбцами: идентификатор, предложения, метки...
20 просмотров
schedule 30.01.2023

Spacy - номер леммы
Я использую spacy, чтобы заменить каждое слово в предложении числом/кодом после того, как я использую вектор в качестве входных данных рекуррентной нейронной сети. import spacy str="basing based base" sp = spacy.load('en_core_web_sm')...
88 просмотров