Публикации по теме 'lemmatization'
Все о НЛП-2
Как работает НЛП?
Используя векторизацию текста, инструменты НЛП преобразуют текст в то, что может понять машина. Затем алгоритмы машинного обучения передаются к обучающим данным и ожидаемым результатам (тегам), чтобы обучать машины устанавливать ассоциации между конкретным входом и соответствующим ему выходом. Затем машины используют методы статистического анализа для создания своего собственного «банка знаний» и определяют, какие функции лучше всего представляют тексты, прежде чем..
НЛП разблокировано: лемматизация #003
НЛП на свободе: раскрытие возможностей обработки естественного языка.
В первых двух блогах этой серии мы рассмотрели основы обработки естественного языка (NLP) и способы предварительной обработки текстовых данных для дальнейшего анализа. Мы узнали о токенизации, которая представляет собой процесс разбиения текста на отдельные слова или фразы, и о стемминге, который представляет собой процесс приведения слов к их корневой форме.
В этом блоге мы собираемся глубже погрузиться в другой..
Введение в стемминг и лемматизацию (НЛП)
Полное исследование стемминга и лемматизации, а также того, какая техника используется в различных задачах обработки естественного языка.
Обработка естественного языка — одна из самых быстрорастущих областей в мире. НЛП проникает в ряд продуктов и услуг, которые мы используем в повседневной жизни. Наиболее важными этапами конвейера НЛП являются обработка и очистка текста, включая стемминг и лемматизацию .
Обработка естественного языка (NLP)
Текстовые данные могут поступать из..
Вопросы по теме 'lemmatization'
Как используется морфа-лемматизатор?
Я собираюсь использовать SQL-версию WordNet, и у меня проблема с поиском способа лемматизировать слова, чтобы найти их в БД; Я не могу использовать сам лемматизатор WordNet, потому что он применяется к текстовой версии WorldNet.
Я читал здесь, что...
2130 просмотров
schedule
03.05.2022
В чем разница между лемматизацией и стеммингом?
Когда я использую каждый из них?
Кроме того ... зависит ли лемматизация NLTK от частей речи? Разве не было бы точнее, если бы это было так?
101918 просмотров
schedule
24.08.2022
ошибка импорта для совместимости в NLTK и использования BrowServer для просмотра базы данных NLTK Wordnet для лемматизации
Расширение для варианта использования - лемматизация слов NLTK
У меня на компьютере установлен nltk (со всеми модулями и корпусом из книги). Мой вариант использования - изучить и сопоставить некоторые подходы к лемматизации и стеммингу для...
3389 просмотров
schedule
21.05.2023
Лемматизация запросов Solr/Lucene с контекстом
Я успешно реализовал чешский лемматизатор для Lucene. Я тестирую его с помощью Solr, и он хорошо работает в индексное время. Но это не так хорошо работает при использовании для запросов, потому что анализатор запросов не предоставляет лемматизатору...
751 просмотров
schedule
24.04.2024
Реализация Word2Vec на языках, отличных от английского?
Можно ли реализовать модели Word2Vec на языках, не основанных на английском алфавите, таких как урду, тамильский и т. д.? Если это так, может кто-нибудь предложить мне путь.
1349 просмотров
schedule
22.12.2022
Почему NLTK Lemmatizer не может лемматизировать некоторые слова во множественном числе?
Я пытался лемматизировать слова из Священной Книги Корана, но некоторые слова не могут быть лемматизированы.
вот моя фраза:
sentence = "Then bring ten surahs like it that have been invented and call upon for assistance whomever you can besides...
1555 просмотров
schedule
13.08.2022
Проблема / согласованность пространственного лемматизатора
В настоящее время я использую spaCy для целей НЛП (в основном лемматизация и токенизация). Используемая модель - en-core-web-sm (2.1.0).
Следующий код запускается для получения списка слов «очищено» из запроса.
import spacy
nlp =...
1389 просмотров
schedule
01.05.2022
Как мне написать функцию, которая использует несколько операторов if, где каждый оператор будет изменять слово одно за другим?
Я пытаюсь написать функцию, которая будет изменять помеченное слово в зависимости от тегов, присутствующих в слове, так что в основном это лемматизатор, но для слов на шведском языке.
Например, если слово было помечено буквой A, оно удалит...
35 просмотров
schedule
04.07.2023
Фильтрация значений в строке по значению другого столбца
Я хотел бы создать список конкретных отрицательных слов для трех разных ярлыков в моих данных обучения. слово должно появляться только для определенного ярлыка, а не для трех. У меня есть фреймворк с 3 столбцами: идентификатор, предложения, метки...
20 просмотров
schedule
30.01.2023
Spacy - номер леммы
Я использую spacy, чтобы заменить каждое слово в предложении числом/кодом после того, как я использую вектор в качестве входных данных рекуррентной нейронной сети.
import spacy
str="basing based base"
sp = spacy.load('en_core_web_sm')...
88 просмотров
schedule
26.11.2022