nltk pos тег ругательства

есть ли способ показать, какие слова являются словами-заполнителями в заданном тексте, используя NLTK? если нет, то кто-нибудь знает, где я могу получить список слов с английскими словами? благодарю вас

РЕШЕНО: из nltk.corpus импортировать стоп-слова


person Mirko    schedule 08.12.2012    source источник


Ответы (1)


NLTK сам по себе не предоставляет такого списка, хотя многие из них доступны в Интернете.

Существует довольно много источников: веб-поиск списков слов с "ненормативной лексикой", "badwords.txt" или blacklists.txt даст множество источников. .

  • noswearing.com — это одно из мест, откуда можно начать.
  • Такие сайты, как Netnanny и некоторые другие, используют «списки цензуры» (на эту тему есть ссылка). Загрузите один и начните оттуда.

В случае с нашей компанией мы создали собственный список и добавляли его по мере необходимости. В зависимости от вашей аудитории, список должен быть изменен и скорректирован.

Наконец, несмотря на то, что этот SO вопрос закрыт (и о php) Я нашел ссылки и обсуждение очень полезными.

ОБНОВЛЕНИЕ: Вам нужен список СТОП-СЛОВ.

  1. Попробуйте: http://www.ranks.nl/resources/stopwords.html
  2. MIT также ведет список стоп-слов.

Надеюсь, это поможет.

person Ram Narasimhan    schedule 09.12.2012
comment
по-видимому, слово ругательство также означает нецензурные слова, я имел в виду не нецензурные слова, а слова-заполнители, есть ли способ получить такой список? или это NLTK предоставляет? - person Mirko; 10.12.2012
comment
Обновлен мой ответ на основе вашего разъяснения - person Ram Narasimhan; 10.12.2012